پردازش زبان طبیعی و زبان‌شناسی رایانه‌ای

۱۶ مطلب با کلمه‌ی کلیدی «مقاله» ثبت شده است

بازنمایی بافتی واژه‌ها

بعد از مدل ELMO این مسأله برای پردازش زبان طبیعی محرز شد که بازنمایی‌های برداری حساس به بافت خیلی بهتر از بردارهایی مانند word2vec می‌توانند در پردازش زبان مؤثر باشند. این بردارها ویژگی‌های بی‌ناظری هستند که بر روی متن خام خیلی بزرگ بدون برچسب  یاد گرفته می‌شوند و در مسائل مختلف پردازش زبان به صورت ویژگی کمکی به رده‌بند (معمولاً شبکهٔ عصبی) کمک می‌کنند. بعد از ELMO مدل‌های دیگری از جمله BERT پیشنهاد شده‌اند که آن‌ها از نظر محاسباتی پیچیده‌تر ولی از نظر دقت عملی بسیار بالاتر هستند. این جزوه از نوح اسمیث اخیراً منتشر شده است و برای آشنایی با این نوع از بردارها خواندنی است.

https://arxiv.org/pdf/1902.06006.pdf

۲۳ بهمن ۹۷ ، ۰۳:۱۳ ۰ نظر موافقین ۱ مخالفین ۰
محمدصادق رسولی

مقاله: الگوی زبانی آگاه به موجودیت‌ها + آموزش یادگیری عمیق با دای‌نت

این مقاله حاصل کارآموزی آخرم در مایکروسافت بوده است. شاید این کار، برایم اولین تجربهٔ واقعی سر و کله زدن با یک شبکهٔ عمیق به معنای درست کلمه باشد؛ بدان معنا که مجبور بودم طوری پیاده‌سازی کنم که با بهترین سرعت ممکن روی دادهٔ بسیار بزرگ قابل اجرا باشد.  شایان ذکر است که این مدل از جمله مدل‌هایی است که با ابزارهای کتاب‌خانه‌ای مانند دای‌نت و پای‌تورچ قابل پیاده‌سازی است ولی پیاده‌سازی آن با تنسورفلو یا ثیانو به سادگی امکان‌پذیر نیست (ر.ک. شکل شبکه در ص ۴).

https://arxiv.org/abs/1803.04291



پ.ن.: برای درس پردازش زبانِ استاد راهنمایم در کلمبیا، آموزش استفاده از شبکهٔ عصبی برای پردازش زبان با کتابخانهٔ دای‌نت را آماده کرده بودم. شاید به کارتان بیاید. البته توجه کنید که این آموزش حالت غیربهینه از نظر پیاده‌سازی است و بیشتر جنبهٔ آموزش مقدماتی شبکهٔ عمیق در پردازش زبان طبیعی دارد. در صفحهٔ اول گیت‌هابِ این پروژه، نحوهٔ نصب در لینوکس و مک را گذاشته‌ام. برای ویندوز باید به خود سایت کتابخانهٔ دای‌نت مراجعه کنید. کل کد به صورت ساخت‌یافته در src موجود است ولی نوت‌بوک پایتونی هم در صفحهٔ گیت‌هاب برای آموزش قدم به قدم وجود دارد.

https://github.com/rasoolims/ff_tagger




۲۴ اسفند ۹۶ ، ۲۲:۲۹ ۰ نظر موافقین ۲ مخالفین ۰
محمدصادق رسولی

مقاله: انتقال بین‌زبانی احساسات با منابع محدود

این مقاله به تازگی در مجلهٔ ترجمهٔ ماشینی منتشر شده است. اگر دسترسی به مقاله ندارید و علاقه‌مندید به مطالعه، به ایمیل شخصی بنده پیام بفرستید. (rasooli{AT}cs.columbia.edu)


پیوند به مقاله

۲۴ آبان ۹۶ ، ۱۸:۴۰ ۱ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

پیش‌نیازها و بایسته‌های پژوهش در پردازش زبان طبیعی

[شاید این مطلب را هر چند وقت یک بار به‌روز کنم تا نکته‌ای از قلم نیفتاده باشد]


در این چند ساله که در زمینهٔ پردازش زبان طبیعی شروع به کار کرده‌ام، سؤال‌های بسیاری در موضوعات مختلف ولی مرتبط با پردازش زبان برایم فرستاده شده. اغلب سؤالات در قالب‌هایی از قبیل «می‌خواهم یک مقالهٔ آی اس آی بنویسم در مورد ...، چه مقالاتی را باید بخوانم؟»، «من تازه شروع به کار کرده‌ام و نمی‌دانم از کجا شروع کنم»، «من از رشتهٔ زبان‌ها آمده‌ام و پیش‌زمینهٔ پردازشی ندارم و ...». از سؤال‌ها این برمی‌آید که یک دانشجوی باانگیزه دوست دارد بداند که دانشجویی که چند سال قبل‌تر از او در این مسیر قدم گذاشته چه راه‌های میانبری را بلد است و یا به قولی فوت کوزه‌گری چیست. نخست این که حقیر کمتر و کوچک‌تر از آنم که از فوت کوز‌ه‌گری بگویم. کیفیت مقالاتی که نوشته‌ام گواه آن هست که خود در این مسیر کمیتم لنگ است ولی تجربیاتی است که گفتنش به نگفتنش می‌ارزد. این تجربیات بیشتر حاصل تعاملم با استادان دانشگاه‌های معتبر و دانشجوهای فعال در این زمینه بوده است. در برخی جاهای این نوشتار از نظام آموزشی ایران بد گفته‌ام ولی این‌ها را به حساب دلسوزی بگذارید و نه خدای نکرده نگاه از بالا به پایین. دیگر آن که برخی از افاضاتم! هم ویژهٔ پردازش زبان طبیعی نیست و در هر پژوهش تجربی قاعده باید همین باشد. اگر اشکالی در این مطالب می‌بینید بنده را از نظراتتان محروم نفرمایید: rasooli[at]cs.columbia.edu



مطلب را به چند بخش تقسیم کرده‌ام: ۱)‌ پیش‌نیاز‌های پژوهش، ۲) کار پژوهشی، ۳)‌ نوشتن مقاله، و ۴) انتشار مقاله.

ادامه مطلب...
۱۱ اسفند ۹۴ ، ۰۶:۲۸ ۱ نظر موافقین ۱ مخالفین ۰
محمدصادق رسولی

یادگیری عمیق و زبان‌شناسی رایانه‌ای

این مقاله را کریستوفر مانینگ استاد دانشگاه استنفورد، در مورد انقلابی که بر اثر نوآوری‌های اخیر در یادگیری عمیق ایجاد شده و تأثیر آن بر آیندهٔ پردازش زبان طبیعی، نوشته است.

Computational linguistics and deep learning

۲۱ آبان ۹۴ ، ۰۳:۰۲ ۱ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

مقالات و کتاب‌های جدید

باز هم بلاگفا دچار مشکلات عجیب و غریب شد و اصلاً معلوم نیست با این اوضاع بشود در این محیط ادامه داد.

پس از غیبتی نسبتاً طولانی با چند مطلب نسبتاً بی‌ربط وبلاگ را به‌روز می‌کنم.

****

مقالهٔ اخیرم در مورد یادگیری تجزیه‌گر نحوی بدون داشتن دادگان درختی و با استفاده از داده‌های ترجمه در همایش EMNLP 2015 منتشر شده است:

Mohammad Sadegh Rasooli and Michael Collins. Density-Driven Cross-Lingual Transfer of Dependency Parsers. Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 328–338, Lisboa, Portugal, September 2015. [Slides]

****

 اخیراً انتشارات مرگان کلی‌پول کتاب‌های متنوعی را در مورد پردازش زبان طبیعی منتشر کرده است: کتاب‌های «پردازش زبان طبیعی در رسانه‌های اجتماعی» و «شناخت خودکار فریب کلامی».

****

یکی از روش‌های پرطرفدار در یکی دو سال اخیر، «یادگیری عمیق» با استفاده از شبکه‌های عصبی است. برای علاقه‌مندان به این موضوع این کتاب طولانی و تخصصی پیشنهاد می‌شود. البته این کتاب خیلی تخصصی است و شاید این مقاله خیلی کاربردی‌تر و ساده‌تر باشد:

Yoav Goldberg, A Primer on Neural Network Models for Natural Language Processing. Arxiv preprints, Oct. 2015.

۱۵ مهر ۹۴ ، ۰۱:۲۲ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

همایش‌های اخیر و مقاله‌ای در پردازش زبان فارسی

سلام،

بعد از مدت طولانی خراب شدن بلاگفا و پاک شدن پاره‌ای از اطلاعات باید دوباره مطلب بگذارم.

در این مدت اتفاقات زیادی در حوزهٔ‌ پردازش زبان افتاده است: NAACL 2015 و ACL-IJCNLP 2015 برگزار شدند و EMNLP 2015 به زودی برگزار خواهد شد. ویدئو ارائه‌های NAACL 2015 از این پیوند قابل دریافت است.

کتاب‌های مرگان کلی‌پول هم به روز شده‌اند و کتابی در مورد شباهت معنایی به تازگی منتشر شده است.

 

ما هم به تازگی مقاله‌ای در ACL-IJCNLP در مورد ساخت اضافه در زبان فارسی داشتیم که پیشنهاد می‌کنم اگر به موضوع پردازش زبان فارسی علاقه‌مندید مطالعه کنید:

Alireza Nourian, Mohammad Sadegh Rasooli, Mohsen Imany, and Heshaam FailiOn the Importance of Ezafe Construction in Persian Parsing. The 53rd Annual Meeting of the Association for Computational Linguistics (ACL) and the 7h International Joint Conference on Natural Language Processing (IJCNLP), Beijing, China, July 2015.

همچنین مقاله‌ای را برای EMNLP در مورد تجزیهٔ وابستگی با استفاده از داده‌های دوزبانه در دست انتشار داریم که ان‌شاءالله به زودی در وبلاگ خواهم گذاشت.

۱۲ مرداد ۹۴ ، ۰۲:۵۱ ۳ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

پیش‌پردازش نحوی زبان مبدأ برای بهبود کارایی ترجمهٔ آماری

این ارائه خلاصهٔ دو مقاله در رابطه با پیش‌پردازش نحوی برای بهبود ترجمه است. در این روش‌ها، برای بهبود دقت ترجمه چه در سطح هم‌ترازی و چه در سطح رمزگشایی، ترتیب کلمات جملات زبان مبدأ با توجه به نحو موجود در جمله تغییر می‌کند.

دریافت ارائه

مقالات:
  1. Michael Collins, Philipp Koehn, & Ivona Kučerová: Clause restructuring for statistical machine translation . ACL 2005.
  2. Peng Xu, Jaeho Kang, Michael Ringgard, & Franz Och: Using a dependency parser to improve SMT for subject-object-verb languages . NAACL 2009.

۲۱ فروردين ۹۲ ، ۰۲:۵۰ ۱ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

مقاله: مردم هر جای جهان چقدر خوشحال یا ناراحتند

تحلیل احساسات یکی از کاربردهای پردازش زبان طبیعی است. در این مقاله، علاوه بر استفاده از الگوی بیزی بر تحلیل احساسات در مطالب توئیتر، میزان شادی یا ناراحتی مردم دنیا را با استفاده از روش بیزی مورد مقایسه قرار داده است.

Davies, Alexander, and Zoubin Ghahramani. "Language-independent Bayesian sentiment mining of Twitter.",  The 5th SNA-KDD Workshop '11 (SNA-KDD'11), August 2011.



۱۴ فروردين ۹۲ ، ۲۲:۰۰ ۱ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

مقاله: مروری بر الگوهای ناپارامتری بیزی در پردازش زبان طبیعی


در این مقاله به اصلی‌ترین الگوهای موجود در الگوهای بیزی ناپارامتری (nonparametric) پرداخته شده است. علاوه بر آن، به چند کاربرد اخیر که در مقالات دیگر آمده اشاره‌ای کوتاه شده است. خواندن این مقاله برای کسانی که بر روی روش‌هایی از خوشه‌بندی کار می‌کنند که از قبل، از تعداد خوشه‌ها مطلع نیستند، توصیه می‌شود.

Narges Sharif-Razavian and Andreas Zollmann. An Overview of Nonparametric Bayesian Models and Applications to Natural Language Processing, Languages and Statistics II project report, Carnegie Mellon University, January 2009.

۱۴ فروردين ۹۲ ، ۲۱:۵۴ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی