پردازش زبان طبیعی و زبان‌شناسی رایانه‌ای

تأثیر یادگیری وفقی بر خطایابی املایی فارسی

این مقاله به تازگی در مقالات هفتمین همایش پردازش زبان طبیعی و مهندسی دانش (توکوشیما، ژاپن) چاپ شده است. در چکیدۀ این مقاله می‌خوانیم:

Effect of Adaptive Spell checking in Persian

In computers era, the flow of producing digital documents simply overwhelmed the traditional manual spell checking, the worst new type of misspelling called typographical errors have been created by machinery text production and management. Therefore, referring to human intolerable load of digital text's spell checking also the irrecusable ability of computers, including accuracy and speed, automatic spell checking using computer systems would be an important application of computer systems. Different users may have their own misspelling patterns or habits so we believe that using a traditional automatic spell checker using a fix set of rules may not be well performable for all kind of misspelling patterns. Therefore, in this paper, we investigate the effect of adaptive spell checking on Persian language comparing a non-adaptive traditional spell checking. Evaluation results show using adaptive spell checking is superior and more efficient than traditional spell checking with a fix set of rules after a short time of usage.

دریافت مقاله

پایۀ اولیۀ این روش در مقالۀ «روشی جدید در خطایابی املایی زبان فارسی» در «دومین همایش داده‌کاوی ایران - 1387» در دانشگاه صنعتی امیرکبیر ارائه شده است.

روشی جدید در خطایابی املایی زبان فارسی

دریافت مقاله

۱۰ بهمن ۹۰ ، ۰۴:۱۲ ۲ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

عرضۀ رایگان اولین پیکرۀ وابستگی زبان فارسی

نسخۀ 0.1 پیکرۀ وابستگی نحوی زبان فارسی به تازگی برای استفادۀ غیرتجاری عرضه شده است. برای تهیۀ نسخۀ جدید پیکرۀ وابستگی، به صفحۀ دریافت آن مراجعه نمایید.


۰۹ بهمن ۹۰ ، ۱۵:۴۲ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

عرضۀ نسخۀ 2.2 فرهنگ ظرفیت فعل فارسی

نسخۀ 2.2 فرهنگ ظرفیت فعل فارسی ارائه شده است. برای دریافت رایگان این فرهنگ به صفحۀ دریافت وبگاه دادگان مراجعه نمایید.


۲۶ دی ۹۰ ، ۱۰:۱۱ ۱ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

مقاله: «فرهنگ ظرفیت نحوی فعل در زبان فارسی»

این مقاله به تازگی در «پنجمین دورۀ همایش زبان و فناوری» در لهستان منتشر شده است.

چکیدۀ مقاله به شرح زیر است:

A Syntactic Valency Lexicon for Persian Verbs: The First Steps towards Persian Dependency Treebank

Valency lexicons are valuable resources for natural language processing. The need for new resources for languages encourages researchers to collect new datasets. One of the most important datasets is valency lexicons. In valency lexicons, information about obligatory and optional complements of words is annotated at the syntactic and semantic levels. In this paper, we report the development of the first syntactic valency lexicon of Persian verbs. This lexicon is part of the Persian Dependency Treebank Project. The lexicon consists of 4282 distinct verb lemmas and 5429 distinct verb-valency pairs. 


دریافت مقاله


نشانی ارجاع: 

 

Mohammad Sadegh Rasooli, Amirsaeid Moloodi, Manouchehr Kouhestani, and Behrouz Minaei-Bidgoli, "A Syntactic Valency Lexicon for Persian Verbs: The First Steps towards Persian Dependency Treebank", in 5th Language & Technology Conference (LTC): Human Language Technologies as a Challenge for Computer Science and Linguistics, pp. 227-231, Poznań, Poland, 2011.

۰۴ دی ۹۰ ، ۱۵:۰۳ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

فهرست منابع مطالعاتی مناسب برای «الگوسازی بیزی برای زبان»

این منابع را «شارون گلدواتر» استاد دانشگاه ادینبورگ معرفی کرده است. در الگوسازی بیزی از زبان، مسائل شناختی و احتمالی با هم آمیخته شده، به نتایج بهتری در یادگیری و نمونه‌برداری از داده رسیده می‌شود.

پیوند مطلب: Bayesian modeling for language

۲۸ آذر ۹۰ ، ۲۰:۲۰ ۱ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی