پردازش زبان طبیعی و زبان‌شناسی رایانه‌ای

همایش‌های اخیر و مقاله‌ای در پردازش زبان فارسی

سلام،

بعد از مدت طولانی خراب شدن بلاگفا و پاک شدن پاره‌ای از اطلاعات باید دوباره مطلب بگذارم.

در این مدت اتفاقات زیادی در حوزهٔ‌ پردازش زبان افتاده است: NAACL 2015 و ACL-IJCNLP 2015 برگزار شدند و EMNLP 2015 به زودی برگزار خواهد شد. ویدئو ارائه‌های NAACL 2015 از این پیوند قابل دریافت است.

کتاب‌های مرگان کلی‌پول هم به روز شده‌اند و کتابی در مورد شباهت معنایی به تازگی منتشر شده است.

 

ما هم به تازگی مقاله‌ای در ACL-IJCNLP در مورد ساخت اضافه در زبان فارسی داشتیم که پیشنهاد می‌کنم اگر به موضوع پردازش زبان فارسی علاقه‌مندید مطالعه کنید:

Alireza Nourian, Mohammad Sadegh Rasooli, Mohsen Imany, and Heshaam FailiOn the Importance of Ezafe Construction in Persian Parsing. The 53rd Annual Meeting of the Association for Computational Linguistics (ACL) and the 7h International Joint Conference on Natural Language Processing (IJCNLP), Beijing, China, July 2015.

همچنین مقاله‌ای را برای EMNLP در مورد تجزیهٔ وابستگی با استفاده از داده‌های دوزبانه در دست انتشار داریم که ان‌شاءالله به زودی در وبلاگ خواهم گذاشت.

۱۲ مرداد ۹۴ ، ۰۲:۵۱ ۳ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

ویدئوی ارائه‌های EMNLP 2014

این ویدئوها همان موقع برگزاری همایش منتشر شده بود ولی من خبر نداشتم، بنابراین با تأخیری نه چندان اندک خبرش را در اینجا می‌گذارم.

 

پیوند به یوتیوب

۲۶ فروردين ۹۴ ، ۱۹:۲۳ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

مقاله: یادگیری برای جستجوی وابستگی‌ها (تجزیهٔ وابستگی با الگوریتم یادگیری جستجو)

این مقاله به تازگی منتشر شده است و ادعاهای جالبی در مورد نوشتن یک تجزیه‌گر وابستگی ساده با ۳۰۰ خط برنامه‌نویسی و استفاده از ابزارهای «یادگیری جستجو» کرده است. دقتی که این تجزیه‌گر با رویکرد حریصانه دارد به مراتب بالاتر از ابزارهای مشابه است. مبنای اصلی این مقاله یادگیری تقلیدی (imitation learning) است.

 

Chang, Kai-Wei, He He, Hal Daumé III, and John Langford. "Learning to Search for Dependencies." arXiv preprint arXiv:1503.05615 (2015).

 

Abstract

We create a transition-based dependency parser using a general purpose learning to search system. The result is a fast and accurate parser for many languages. Compared to other transition-based dependency parsing approaches, our parser provides similar statistical and computational performance with best-known approaches while avoiding various downsides including randomization, extra feature requirements, and custom learning algorithms. We show that it is possible to implement a dependency parser with an open-source learning to search library in about 300 lines of C++ code, while existing systems often requires several thousands of lines.

۱۰ فروردين ۹۴ ، ۲۲:۵۰ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

یارا: تجزیه‌گر وابستگی سریع و دقیق

بالاخره گزارش فنی تجزیه‌گر یارا را آماده کردیم.

Mohammad Sadegh Rasooli and Joel TetreaultYara Parser: A Fast and Accurate Dependency Parser. arXiv:1503.06733v1 [cs.CL] 23 Mar 2015.

 

https://twitter.com/YahooLabs/status/580493345635627009

۰۴ فروردين ۹۴ ، ۱۶:۲۳ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

پیکرهٔ وابستگی نحوی زبان فارسی (نسخه ۱.۱)

نسخهٔ ۱.۱ پیکرهٔ نحوی وابستگی زبان فارسی شامل تصحیحات اندکی نسبت به پیکرهٔ اولیه و تغییر در بخش‌بندی در دادهٔ یادگیری، ارزیابی و آزمون است. این پیکره از پیوند زیر قابل دریافت است:

پیوند دریافت

۲۸ اسفند ۹۳ ، ۰۱:۲۰ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

برنامهٔ‌ اجزای گیزا به صورت دوطرفه

این برنامه (برنامچه بگویم بهتر است) را چند وقت پیش برای استخراج هم‌ترازی با استفاده از GIZA++ نوشتم. این برنامه نشانی گیزا، تقطیع‌گر واژه و دیگر ابزارهای جانبی را می‌گیرد و خروجی هم‌ترازی را می‌دهد.

نشانی منبع یرنامه

اگر نیاز به گرفتن اشتراک بین دو طرف هم‌ترازی دارید،‌ برنامهٔ ساده زیر این کار را انجام می‌دهد (از فایل A3.final برای گرفتن هم‌ترازی استفاده نمایید).

نشانی منبع برنامه

 

پی‌نوشت

پیام‌های خصوصی شما که درخواست می‌کنید به شما با ایمیل جواب بدهم بعضاً‌ به دلیل مشغلهٔ کاری فراموش می‌شود. لذا لطف کنید یا به صورت مستقیم ایمیل بفرستید یا پیام عمومی بگذارید تا پایین پیام پاسخ بدهم.

۲۱ اسفند ۹۳ ، ۰۳:۳۶ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

تجزیه‌گر وابستگی یارا (نسخهٔ ۰٫۲) + برچسب‌زن اجزای سخن

نسخهٔ ۰٫۲ تجزیه‌گر یارا برخی از اشکالات نسخهٔ اول را ندارد و دارای سرعت و دقت بیشتری‌ست. این تجزیه‌گر، علاوه بر امکانات قبلی، امکان استفاده از ویژگی‌های خوشهٔ واژگان براون را داراست. 

دریافت

در ضمن توسعهٔ این پروژه برچسب‌زن اجزای سخنی نیز توسعه یافته است.

منبع برنامهٔ برچسب‌زن 

۲۱ بهمن ۹۳ ، ۲۲:۲۵ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

تجزیه‌گر وابستگی یارا (نسخهٔ ۰٫۱)

تجزیه‌گر وابستگی یارا بر اساس الگوریتم مبتنی بر گذار و با زبان جاوا استاندارد نوشته شده است. سرعت این تجزیه‌گر به مراتب بالاتر از خیلی از تجزیه‌گرهای معروف است. پیش‌نسخهٔ‌ این تجزیه‌گر را عرضه کرده‌ام. در این پیش‌نسخه امکان تجزیهٔ کامل و تجزیهٔ‌ جزئی جملات وجود دارد. این تجزیه‌گر به صورت آپاچی ارائه شده است و برای استفاده و عرضه در محصولات تجاری محدودیتی وجود ندارد.

دریافت پیش‌نسخهٔ ۰٫۱ و کد منبع

منبع (در حال توسعه)‌ در گیت‌هاب

ان‌شاءالله به زودی گزارش کار این تجزیه‌گر را منتشر خواهم کرد تا برای ارجاع در مقالات علمی مشکلی نباشد.

۰۶ بهمن ۹۳ ، ۱۸:۰۹ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

پیش‌پردازش نحوی زبان مبدأ برای بهبود کارایی ترجمهٔ آماری

این ارائه خلاصهٔ دو مقاله در رابطه با پیش‌پردازش نحوی برای بهبود ترجمه است. در این روش‌ها، برای بهبود دقت ترجمه چه در سطح هم‌ترازی و چه در سطح رمزگشایی، ترتیب کلمات جملات زبان مبدأ با توجه به نحو موجود در جمله تغییر می‌کند.

دریافت ارائه

مقالات:
  1. Michael Collins, Philipp Koehn, & Ivona Kučerová: Clause restructuring for statistical machine translation . ACL 2005.
  2. Peng Xu, Jaeho Kang, Michael Ringgard, & Franz Och: Using a dependency parser to improve SMT for subject-object-verb languages . NAACL 2009.

۲۱ فروردين ۹۲ ، ۰۲:۵۰ ۱ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

مقاله: مردم هر جای جهان چقدر خوشحال یا ناراحتند

تحلیل احساسات یکی از کاربردهای پردازش زبان طبیعی است. در این مقاله، علاوه بر استفاده از الگوی بیزی بر تحلیل احساسات در مطالب توئیتر، میزان شادی یا ناراحتی مردم دنیا را با استفاده از روش بیزی مورد مقایسه قرار داده است.

Davies, Alexander, and Zoubin Ghahramani. "Language-independent Bayesian sentiment mining of Twitter.",  The 5th SNA-KDD Workshop '11 (SNA-KDD'11), August 2011.



۱۴ فروردين ۹۲ ، ۲۲:۰۰ ۱ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی