پردازش زبان طبیعی و زبان‌شناسی رایانه‌ای

۱۶ مطلب با کلمه‌ی کلیدی «مقاله» ثبت شده است

مقاله: استنتاج بیزی با ماشین‌های حالت محدود

در این مقاله روش استفاده از ماشین‌های حالت محدود برای یادگیری بی‌ناظر استفاده شده است. دو روش اصلی نیز مورد بررسی قرار گرفته است: بیشینه‌سازی امید ریاضی (امیدیابی-بیشینه‌سازی) و استنتاج بیزی. به عنوان مثال از کاربردهای مختلف از جمله برچسب‌زنی اجزای سخن نیز نمونه آزمایش‌هایی آورده شده است. این مقاله برای کسانی که علاقه به استفاده از ماشین‌های حالت دارند توصیه می‌شود.

Chiang, David, Jonathan Graehl, Kevin Knight, Adam Pauls, and Sujith Ravi. "Bayesian inference for finite-state transducers." In Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp. 447-455. Association for Computational Linguistics, 2010.

نکتهٔ مثبت ماشین‌های حالت این است که ابزارهای آمادهٔ بسیاری برای آن وجود دارد مانند XeroxFST، OpenFst و AT&T FSM.

پی‌نوشت

برای آشنایی بیشتر با ماشین‌های حالت

Mohri, Mehryar. "Finite-state transducers in language and speech processing." Computational linguistics 23, no. 2 (1997): 269-311.
Weighted Finite-State Transducers in Speech Recognition (Tutorial) [ Part I, Part II] (Mehryar Mohri and Michael Riley). International Conference on Spoken Language Processing 2002 (ICSLP '02). Denver, Colorado, September 2002.

برای آشنایی با بیشینه‌سازی امید ریاضی

Collins, Micheal John, "The Naive Bayes Model, Maximum-Likelihood Estimation, and the EM Algorithm".


برای آشنایی با یادگیری بیزی زبان طبیعی 

Knight, Kevin, "Bayesian Inference with Tears", ISI, 2011.

۱۰ فروردين ۹۲ ، ۰۰:۵۶ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

مقاله: توسعهٔ‌ پیکرهٔ درختی وابستگی نحوی فارسی

این مقاله قرار تابستان امسال در همایش زبان‌شناسی رایانشی شمال امریکا ارائه شود. در این مقاله فرآیند تولید پیکرهٔ وابستگی زبان فارسی و چالش‌های موجود توضیح داده شده است.

Mohammad Sadegh Rasooli, Manouchehr Kouhestani, and Amirsaeid Moloodi. Development of a Persian Syntactic Dependency Treebank, The 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL HLT), Atlanta, USA, June 2013.

۰۹ فروردين ۹۲ ، ۰۰:۰۲ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

تجزیۀ وابستگی بی‌ناظر سریع

این مقاله در کارگاه تخصصی یادگیری بی‌ناظر و نیمه‌ناظر زبان طبیعی در فرانسه ارائه شده است.


Mohammad Sadegh Rasooli and Heshaam Faili, "Fast Unsupervised Dependency Parsing with Arc-Standard Transitions", in EACL workshop on ROBUS-UNSUP 2012: Joint Workshop on Unsupervised and Semi-Supervised Learning in NLP, Avignon, France, 2012.

۱۳ تیر ۹۱ ، ۱۳:۱۹ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

تأثیر یادگیری وفقی بر خطایابی املایی فارسی

این مقاله به تازگی در مقالات هفتمین همایش پردازش زبان طبیعی و مهندسی دانش (توکوشیما، ژاپن) چاپ شده است. در چکیدۀ این مقاله می‌خوانیم:

Effect of Adaptive Spell checking in Persian

In computers era, the flow of producing digital documents simply overwhelmed the traditional manual spell checking, the worst new type of misspelling called typographical errors have been created by machinery text production and management. Therefore, referring to human intolerable load of digital text's spell checking also the irrecusable ability of computers, including accuracy and speed, automatic spell checking using computer systems would be an important application of computer systems. Different users may have their own misspelling patterns or habits so we believe that using a traditional automatic spell checker using a fix set of rules may not be well performable for all kind of misspelling patterns. Therefore, in this paper, we investigate the effect of adaptive spell checking on Persian language comparing a non-adaptive traditional spell checking. Evaluation results show using adaptive spell checking is superior and more efficient than traditional spell checking with a fix set of rules after a short time of usage.

دریافت مقاله

پایۀ اولیۀ این روش در مقالۀ «روشی جدید در خطایابی املایی زبان فارسی» در «دومین همایش داده‌کاوی ایران - 1387» در دانشگاه صنعتی امیرکبیر ارائه شده است.

روشی جدید در خطایابی املایی زبان فارسی

دریافت مقاله

۱۰ بهمن ۹۰ ، ۰۴:۱۲ ۲ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

مقاله: «فرهنگ ظرفیت نحوی فعل در زبان فارسی»

این مقاله به تازگی در «پنجمین دورۀ همایش زبان و فناوری» در لهستان منتشر شده است.

چکیدۀ مقاله به شرح زیر است:

A Syntactic Valency Lexicon for Persian Verbs: The First Steps towards Persian Dependency Treebank

Valency lexicons are valuable resources for natural language processing. The need for new resources for languages encourages researchers to collect new datasets. One of the most important datasets is valency lexicons. In valency lexicons, information about obligatory and optional complements of words is annotated at the syntactic and semantic levels. In this paper, we report the development of the first syntactic valency lexicon of Persian verbs. This lexicon is part of the Persian Dependency Treebank Project. The lexicon consists of 4282 distinct verb lemmas and 5429 distinct verb-valency pairs. 


دریافت مقاله


نشانی ارجاع: 

 

Mohammad Sadegh Rasooli, Amirsaeid Moloodi, Manouchehr Kouhestani, and Behrouz Minaei-Bidgoli, "A Syntactic Valency Lexicon for Persian Verbs: The First Steps towards Persian Dependency Treebank", in 5th Language & Technology Conference (LTC): Human Language Technologies as a Challenge for Computer Science and Linguistics, pp. 227-231, Poznań, Poland, 2011.

۰۴ دی ۹۰ ، ۱۵:۰۳ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

فهرست منابع مطالعاتی مناسب برای «الگوسازی بیزی برای زبان»

این منابع را «شارون گلدواتر» استاد دانشگاه ادینبورگ معرفی کرده است. در الگوسازی بیزی از زبان، مسائل شناختی و احتمالی با هم آمیخته شده، به نتایج بهتری در یادگیری و نمونه‌برداری از داده رسیده می‌شود.

پیوند مطلب: Bayesian modeling for language

۲۸ آذر ۹۰ ، ۲۰:۲۰ ۱ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی