پردازش زبان طبیعی و زبان‌شناسی رایانه‌ای

تجزیه‌گر وابستگی مبتنی بر گراف با سی‌شارپ

این تجزیه‌گر در واقع تبدیل از جاوا به سی‌شارپ MST Parser است.

صفحۀ دریافت برنامۀ متن‌باز:

https://github.com/rasoolims/MSTParserCSharp


لطفاً پیشنهادها و اشکالات موجود را با تماس اینترنتی در میان بگذارید: rasooli.ms{#a#t}gmail.com


۲۶ فروردين ۹۱ ، ۱۱:۳۲ ۱ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

گفت‌وگو با محمدصادق رسولی در خصوص کارکرد پروژه دادگان و پردازش متون زبانی

گفت‌وگو با محمدصادق رسولی در خصوص کارکرد پروژه دادگان و پردازش متون زبانی

گروه دادگان زبان فارسی، برای جامعه علمی داخل و خارج

نسترن صادقی

 

تهران امروز

 

 

پیوند خبر:

http://www.tehrooz.com/1390/11/16/TehranEmrooz/824/Page/13/

 

 محمد صادق رسولی در حال حاضر مسئولیت پروژه دادگان وابستگی گروه دادگان زبان فارسی را بر عهده دارد. او کارشناسی نرم‌افزار و کارشناسی ارشد هوش مصنوعی را از دانشگاه علم و صنعت ایران اخذ کرده است.در خصوص کارکرد پروژه دادگان و پردازش متون زبانی با او به گفت‌وگو نشسته‌ایم.

 

 

 هدف از پردازش هوشمند متون زبانی چیست؟

 

هدف از پردازش زبان را می‌توان در چند دیدگاه جست‌وجو کرد. در یک دیدگاه، شناخت‌گرایان سعی می‌کنند با روش‌های هوشمند رایانه‌ای رفتارهای شناختی انسان را شبیه‌سازی می‌کنند و از نتایج به دست آمده تعمیم‌هایی به دست می‌آورند. یک دیدگاه سطح پایین‌تر نیز وجود دارد، دیدگاهی که معتقد است رایانه باید در هر مسئله‌ای بتواند کار را برای انسان راحت کند. انسان، خود یک متخصص خبره است که با استفاده از هوشمندی نسبی رایانه این خبرگی را می‌تواند به یک سامانه هوشمند منتقل کند. مثلاً اگر یک روزی برای خرید بلیت قطار به متخصص فروش (یعنی فروشنده باجه ایستگاه) مراجعه می‌کردید، اکنون یک خبره هوشمند رایانه‌ای تحت وب برایتان طراحی شده است که از طریق آن می‌توانید بدون مراجعه حضوری آن کار را سریع‌تر انجام دهید. در مورد زبان نیز همین مسئله صدق می‌کند. مثلاً هم‌اکنون نرم‌افزارهایی مانند «رُزِتا استون» برای چنین کاربردهایی طراحی شده‌اند و یا برای آزمون‌هایی مانند تافل، بخش اعظم ارزیابی‌ها به صورت هوشمند و رایانه‌ای انجام می‌شود...

ادامه مطلب...
۲۵ بهمن ۹۰ ، ۱۲:۲۸ ۴ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

تأثیر یادگیری وفقی بر خطایابی املایی فارسی

این مقاله به تازگی در مقالات هفتمین همایش پردازش زبان طبیعی و مهندسی دانش (توکوشیما، ژاپن) چاپ شده است. در چکیدۀ این مقاله می‌خوانیم:

Effect of Adaptive Spell checking in Persian

In computers era, the flow of producing digital documents simply overwhelmed the traditional manual spell checking, the worst new type of misspelling called typographical errors have been created by machinery text production and management. Therefore, referring to human intolerable load of digital text's spell checking also the irrecusable ability of computers, including accuracy and speed, automatic spell checking using computer systems would be an important application of computer systems. Different users may have their own misspelling patterns or habits so we believe that using a traditional automatic spell checker using a fix set of rules may not be well performable for all kind of misspelling patterns. Therefore, in this paper, we investigate the effect of adaptive spell checking on Persian language comparing a non-adaptive traditional spell checking. Evaluation results show using adaptive spell checking is superior and more efficient than traditional spell checking with a fix set of rules after a short time of usage.

دریافت مقاله

پایۀ اولیۀ این روش در مقالۀ «روشی جدید در خطایابی املایی زبان فارسی» در «دومین همایش داده‌کاوی ایران - 1387» در دانشگاه صنعتی امیرکبیر ارائه شده است.

روشی جدید در خطایابی املایی زبان فارسی

دریافت مقاله

۱۰ بهمن ۹۰ ، ۰۴:۱۲ ۲ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

عرضۀ رایگان اولین پیکرۀ وابستگی زبان فارسی

نسخۀ 0.1 پیکرۀ وابستگی نحوی زبان فارسی به تازگی برای استفادۀ غیرتجاری عرضه شده است. برای تهیۀ نسخۀ جدید پیکرۀ وابستگی، به صفحۀ دریافت آن مراجعه نمایید.


۰۹ بهمن ۹۰ ، ۱۵:۴۲ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

عرضۀ نسخۀ 2.2 فرهنگ ظرفیت فعل فارسی

نسخۀ 2.2 فرهنگ ظرفیت فعل فارسی ارائه شده است. برای دریافت رایگان این فرهنگ به صفحۀ دریافت وبگاه دادگان مراجعه نمایید.


۲۶ دی ۹۰ ، ۱۰:۱۱ ۱ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

مقاله: «فرهنگ ظرفیت نحوی فعل در زبان فارسی»

این مقاله به تازگی در «پنجمین دورۀ همایش زبان و فناوری» در لهستان منتشر شده است.

چکیدۀ مقاله به شرح زیر است:

A Syntactic Valency Lexicon for Persian Verbs: The First Steps towards Persian Dependency Treebank

Valency lexicons are valuable resources for natural language processing. The need for new resources for languages encourages researchers to collect new datasets. One of the most important datasets is valency lexicons. In valency lexicons, information about obligatory and optional complements of words is annotated at the syntactic and semantic levels. In this paper, we report the development of the first syntactic valency lexicon of Persian verbs. This lexicon is part of the Persian Dependency Treebank Project. The lexicon consists of 4282 distinct verb lemmas and 5429 distinct verb-valency pairs. 


دریافت مقاله


نشانی ارجاع: 

 

Mohammad Sadegh Rasooli, Amirsaeid Moloodi, Manouchehr Kouhestani, and Behrouz Minaei-Bidgoli, "A Syntactic Valency Lexicon for Persian Verbs: The First Steps towards Persian Dependency Treebank", in 5th Language & Technology Conference (LTC): Human Language Technologies as a Challenge for Computer Science and Linguistics, pp. 227-231, Poznań, Poland, 2011.

۰۴ دی ۹۰ ، ۱۵:۰۳ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

فهرست منابع مطالعاتی مناسب برای «الگوسازی بیزی برای زبان»

این منابع را «شارون گلدواتر» استاد دانشگاه ادینبورگ معرفی کرده است. در الگوسازی بیزی از زبان، مسائل شناختی و احتمالی با هم آمیخته شده، به نتایج بهتری در یادگیری و نمونه‌برداری از داده رسیده می‌شود.

پیوند مطلب: Bayesian modeling for language

۲۸ آذر ۹۰ ، ۲۰:۲۰ ۱ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی