بعد از مدل ELMO این مسأله برای پردازش زبان طبیعی محرز شد که بازنمایی‌های برداری حساس به بافت خیلی بهتر از بردارهایی مانند word2vec می‌توانند در پردازش زبان مؤثر باشند. این بردارها ویژگی‌های بی‌ناظری هستند که بر روی متن خام خیلی بزرگ بدون برچسب  یاد گرفته می‌شوند و در مسائل مختلف پردازش زبان به صورت ویژگی کمکی به رده‌بند (معمولاً شبکهٔ عصبی) کمک می‌کنند. بعد از ELMO مدل‌های دیگری از جمله BERT پیشنهاد شده‌اند که آن‌ها از نظر محاسباتی پیچیده‌تر ولی از نظر دقت عملی بسیار بالاتر هستند. این جزوه از نوح اسمیث اخیراً منتشر شده است و برای آشنایی با این نوع از بردارها خواندنی است.

https://arxiv.org/pdf/1902.06006.pdf