پردازش زبان طبیعی و زبان‌شناسی رایانه‌ای

یارا: تجزیه‌گر وابستگی سریع و دقیق

بالاخره گزارش فنی تجزیه‌گر یارا را آماده کردیم.

Mohammad Sadegh Rasooli and Joel TetreaultYara Parser: A Fast and Accurate Dependency Parser. arXiv:1503.06733v1 [cs.CL] 23 Mar 2015.

 

https://twitter.com/YahooLabs/status/580493345635627009

۰۴ فروردين ۹۴ ، ۱۶:۲۳ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

پیکرهٔ وابستگی نحوی زبان فارسی (نسخه ۱.۱)

نسخهٔ ۱.۱ پیکرهٔ نحوی وابستگی زبان فارسی شامل تصحیحات اندکی نسبت به پیکرهٔ اولیه و تغییر در بخش‌بندی در دادهٔ یادگیری، ارزیابی و آزمون است. این پیکره از پیوند زیر قابل دریافت است:

پیوند دریافت

۲۸ اسفند ۹۳ ، ۰۱:۲۰ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

برنامهٔ‌ اجزای گیزا به صورت دوطرفه

این برنامه (برنامچه بگویم بهتر است) را چند وقت پیش برای استخراج هم‌ترازی با استفاده از GIZA++ نوشتم. این برنامه نشانی گیزا، تقطیع‌گر واژه و دیگر ابزارهای جانبی را می‌گیرد و خروجی هم‌ترازی را می‌دهد.

نشانی منبع یرنامه

اگر نیاز به گرفتن اشتراک بین دو طرف هم‌ترازی دارید،‌ برنامهٔ ساده زیر این کار را انجام می‌دهد (از فایل A3.final برای گرفتن هم‌ترازی استفاده نمایید).

نشانی منبع برنامه

 

پی‌نوشت

پیام‌های خصوصی شما که درخواست می‌کنید به شما با ایمیل جواب بدهم بعضاً‌ به دلیل مشغلهٔ کاری فراموش می‌شود. لذا لطف کنید یا به صورت مستقیم ایمیل بفرستید یا پیام عمومی بگذارید تا پایین پیام پاسخ بدهم.

۲۱ اسفند ۹۳ ، ۰۳:۳۶ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

تجزیه‌گر وابستگی یارا (نسخهٔ ۰٫۲) + برچسب‌زن اجزای سخن

نسخهٔ ۰٫۲ تجزیه‌گر یارا برخی از اشکالات نسخهٔ اول را ندارد و دارای سرعت و دقت بیشتری‌ست. این تجزیه‌گر، علاوه بر امکانات قبلی، امکان استفاده از ویژگی‌های خوشهٔ واژگان براون را داراست. 

دریافت

در ضمن توسعهٔ این پروژه برچسب‌زن اجزای سخنی نیز توسعه یافته است.

منبع برنامهٔ برچسب‌زن 

۲۱ بهمن ۹۳ ، ۲۲:۲۵ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

تجزیه‌گر وابستگی یارا (نسخهٔ ۰٫۱)

تجزیه‌گر وابستگی یارا بر اساس الگوریتم مبتنی بر گذار و با زبان جاوا استاندارد نوشته شده است. سرعت این تجزیه‌گر به مراتب بالاتر از خیلی از تجزیه‌گرهای معروف است. پیش‌نسخهٔ‌ این تجزیه‌گر را عرضه کرده‌ام. در این پیش‌نسخه امکان تجزیهٔ کامل و تجزیهٔ‌ جزئی جملات وجود دارد. این تجزیه‌گر به صورت آپاچی ارائه شده است و برای استفاده و عرضه در محصولات تجاری محدودیتی وجود ندارد.

دریافت پیش‌نسخهٔ ۰٫۱ و کد منبع

منبع (در حال توسعه)‌ در گیت‌هاب

ان‌شاءالله به زودی گزارش کار این تجزیه‌گر را منتشر خواهم کرد تا برای ارجاع در مقالات علمی مشکلی نباشد.

۰۶ بهمن ۹۳ ، ۱۸:۰۹ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

پیش‌پردازش نحوی زبان مبدأ برای بهبود کارایی ترجمهٔ آماری

این ارائه خلاصهٔ دو مقاله در رابطه با پیش‌پردازش نحوی برای بهبود ترجمه است. در این روش‌ها، برای بهبود دقت ترجمه چه در سطح هم‌ترازی و چه در سطح رمزگشایی، ترتیب کلمات جملات زبان مبدأ با توجه به نحو موجود در جمله تغییر می‌کند.

دریافت ارائه

مقالات:
  1. Michael Collins, Philipp Koehn, & Ivona Kučerová: Clause restructuring for statistical machine translation . ACL 2005.
  2. Peng Xu, Jaeho Kang, Michael Ringgard, & Franz Och: Using a dependency parser to improve SMT for subject-object-verb languages . NAACL 2009.

۲۱ فروردين ۹۲ ، ۰۲:۵۰ ۱ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

مقاله: مردم هر جای جهان چقدر خوشحال یا ناراحتند

تحلیل احساسات یکی از کاربردهای پردازش زبان طبیعی است. در این مقاله، علاوه بر استفاده از الگوی بیزی بر تحلیل احساسات در مطالب توئیتر، میزان شادی یا ناراحتی مردم دنیا را با استفاده از روش بیزی مورد مقایسه قرار داده است.

Davies, Alexander, and Zoubin Ghahramani. "Language-independent Bayesian sentiment mining of Twitter.",  The 5th SNA-KDD Workshop '11 (SNA-KDD'11), August 2011.



۱۴ فروردين ۹۲ ، ۲۲:۰۰ ۱ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

مقاله: مروری بر الگوهای ناپارامتری بیزی در پردازش زبان طبیعی


در این مقاله به اصلی‌ترین الگوهای موجود در الگوهای بیزی ناپارامتری (nonparametric) پرداخته شده است. علاوه بر آن، به چند کاربرد اخیر که در مقالات دیگر آمده اشاره‌ای کوتاه شده است. خواندن این مقاله برای کسانی که بر روی روش‌هایی از خوشه‌بندی کار می‌کنند که از قبل، از تعداد خوشه‌ها مطلع نیستند، توصیه می‌شود.

Narges Sharif-Razavian and Andreas Zollmann. An Overview of Nonparametric Bayesian Models and Applications to Natural Language Processing, Languages and Statistics II project report, Carnegie Mellon University, January 2009.

۱۴ فروردين ۹۲ ، ۲۱:۵۴ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

مقاله: استنتاج بیزی با ماشین‌های حالت محدود

در این مقاله روش استفاده از ماشین‌های حالت محدود برای یادگیری بی‌ناظر استفاده شده است. دو روش اصلی نیز مورد بررسی قرار گرفته است: بیشینه‌سازی امید ریاضی (امیدیابی-بیشینه‌سازی) و استنتاج بیزی. به عنوان مثال از کاربردهای مختلف از جمله برچسب‌زنی اجزای سخن نیز نمونه آزمایش‌هایی آورده شده است. این مقاله برای کسانی که علاقه به استفاده از ماشین‌های حالت دارند توصیه می‌شود.

Chiang, David, Jonathan Graehl, Kevin Knight, Adam Pauls, and Sujith Ravi. "Bayesian inference for finite-state transducers." In Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp. 447-455. Association for Computational Linguistics, 2010.

نکتهٔ مثبت ماشین‌های حالت این است که ابزارهای آمادهٔ بسیاری برای آن وجود دارد مانند XeroxFST، OpenFst و AT&T FSM.

پی‌نوشت

برای آشنایی بیشتر با ماشین‌های حالت

Mohri, Mehryar. "Finite-state transducers in language and speech processing." Computational linguistics 23, no. 2 (1997): 269-311.
Weighted Finite-State Transducers in Speech Recognition (Tutorial) [ Part I, Part II] (Mehryar Mohri and Michael Riley). International Conference on Spoken Language Processing 2002 (ICSLP '02). Denver, Colorado, September 2002.

برای آشنایی با بیشینه‌سازی امید ریاضی

Collins, Micheal John, "The Naive Bayes Model, Maximum-Likelihood Estimation, and the EM Algorithm".


برای آشنایی با یادگیری بیزی زبان طبیعی 

Knight, Kevin, "Bayesian Inference with Tears", ISI, 2011.

۱۰ فروردين ۹۲ ، ۰۰:۵۶ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

مقاله: توسعهٔ‌ پیکرهٔ درختی وابستگی نحوی فارسی

این مقاله قرار تابستان امسال در همایش زبان‌شناسی رایانشی شمال امریکا ارائه شود. در این مقاله فرآیند تولید پیکرهٔ وابستگی زبان فارسی و چالش‌های موجود توضیح داده شده است.

Mohammad Sadegh Rasooli, Manouchehr Kouhestani, and Amirsaeid Moloodi. Development of a Persian Syntactic Dependency Treebank, The 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL HLT), Atlanta, USA, June 2013.

۰۹ فروردين ۹۲ ، ۰۰:۰۲ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی