پردازش زبان طبیعی و زبان‌شناسی رایانه‌ای

۱۲ مطلب با کلمه‌ی کلیدی «پردازش زبان فارسی» ثبت شده است

همایش‌های اخیر و مقاله‌ای در پردازش زبان فارسی

سلام،

بعد از مدت طولانی خراب شدن بلاگفا و پاک شدن پاره‌ای از اطلاعات باید دوباره مطلب بگذارم.

در این مدت اتفاقات زیادی در حوزهٔ‌ پردازش زبان افتاده است: NAACL 2015 و ACL-IJCNLP 2015 برگزار شدند و EMNLP 2015 به زودی برگزار خواهد شد. ویدئو ارائه‌های NAACL 2015 از این پیوند قابل دریافت است.

کتاب‌های مرگان کلی‌پول هم به روز شده‌اند و کتابی در مورد شباهت معنایی به تازگی منتشر شده است.

 

ما هم به تازگی مقاله‌ای در ACL-IJCNLP در مورد ساخت اضافه در زبان فارسی داشتیم که پیشنهاد می‌کنم اگر به موضوع پردازش زبان فارسی علاقه‌مندید مطالعه کنید:

Alireza Nourian, Mohammad Sadegh Rasooli, Mohsen Imany, and Heshaam FailiOn the Importance of Ezafe Construction in Persian Parsing. The 53rd Annual Meeting of the Association for Computational Linguistics (ACL) and the 7h International Joint Conference on Natural Language Processing (IJCNLP), Beijing, China, July 2015.

همچنین مقاله‌ای را برای EMNLP در مورد تجزیهٔ وابستگی با استفاده از داده‌های دوزبانه در دست انتشار داریم که ان‌شاءالله به زودی در وبلاگ خواهم گذاشت.

۱۲ مرداد ۹۴ ، ۰۲:۵۱ ۳ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

مقاله: توسعهٔ‌ پیکرهٔ درختی وابستگی نحوی فارسی

این مقاله قرار تابستان امسال در همایش زبان‌شناسی رایانشی شمال امریکا ارائه شود. در این مقاله فرآیند تولید پیکرهٔ وابستگی زبان فارسی و چالش‌های موجود توضیح داده شده است.

Mohammad Sadegh Rasooli, Manouchehr Kouhestani, and Amirsaeid Moloodi. Development of a Persian Syntactic Dependency Treebank, The 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL HLT), Atlanta, USA, June 2013.

۰۹ فروردين ۹۲ ، ۰۰:۰۲ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

استنتاج بی‌ناظر ظرفیت فعل در زبان فارسی بر مبنای دستور وابستگی

استنتاج بی‌ناظر ظرفیت فعل در زبان فارسی بر مبنای دستور وابستگی

پایان‌نامه برای دریافت درجۀ کارشناسی ارشد

در رشتۀ مهندسی کامپیوتر گرایش هوش مصنوعی و رباتیک

 

نام دانشجو:

محمدصادق رسولی

 

استاد راهنما:

دکتر بهروز مینایی بیدگلی

 

استاد مشاور:

دکتر هشام فیلی


دریافت متن پایان‌نامه


دریافت ارائۀ پایان‌نامه


چکیده

فعل اصلی‌ترین جزء جمله در زبان است و زبان فارسی از این قاعده مستثنی نیست. مفهوم ظرفیت از نظریۀ دستور وابستگی در زبان‌شناسی نوین اقتباس شده است. ظرفیت فعل نشان‌دهندۀ متمم‌های مورد نیاز فعل برای خوش‌ساخت کردن جمله است. شناخت ساخت ظرفیتی در زبان از سه جهت اهمیت دارد. نخست این که با شناخت ساخت‌های ظرفیتی می‌توان سامانه‌های مبتنی بر دستور واژگانی طراحی کرد. دومین جهت استفاده از ساخت‌های ظرفیتی برای کاربردهای تجزیۀ نحوی و معنایی زبان به صورت هوشمند است. سومین جهت نیز استفاده از آن برای کاربردهای شناختی در زبان‌شناسی نظری است. در این پایان‌نامه پس از مرور ادبیات موضوع پیرامون روش‌های پردازش زبان طبیعی در سطح نحو و روش‌های یادگیری زبان، به بررسی ساختار فعل و ظرفیت فعل در زبان پرداخته شده است. پس از مروری بر مفاهیم فعل، دستور وابستگی، ظرفیت در دستور وابستگی و روش‌های استخراج بی‌ناظر ظرفیت فعل در زبان فارسی، روش‌هایی برای استخراج بی‌ناظر فعل مرکب در زبان فارسی و ظرفیت افعال زبان فارسی پیشنهاد و آزموده شده است. به دلیل نیاز واژگانی زبان، نگارنده به همراه همکارانش اقدام به ایجاد اولین فرهنگ ظرفیت فعل در زبان فارسی و اولین پیکرۀ وابستگی نحوی زبان کرده‌اند تا بتوان به وسیلۀ آن‌ها پردازش زبان فارسی را در سطح نحو بهبود و گسترش داد. در نهایت نیز جمع‌بندی و پیشنهادهایی در مورد ادامۀ کار این پژوهش برای بسط روش‌های پردازشی مبتنی بر دستور وابستگی در زبان فارسی پیشنهاد شده است. در زمینۀ استخراج فعل مرکب با پیشنهاد دو روش تلفیقی، روش‌های سنتی مورد بهبود چشمگیر قرار گرفته‌اند. الگوریتم‌های مختلف در مورد شناخت ظرفیت فعل نیز شناخته شده، مورد آزمون قرار گرفتند که از این میان الگوریتم امیدیابی-بیشینه‌سازی بهترین نتایج را از آن خود کرده است.

 

واژه‌های کلیدی: پردازش زبان طبیعی، دستور وابستگی، نحو، فعل، ظرفیت فعل، فعل مرکب، زبان فارسی، استخراج بی‌ناظر.

۱۳ تیر ۹۱ ، ۱۳:۰۹ ۲ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

معرفی دادگان درختی زبان فارسی بر اساس HPSG و نحوۀ تهیه آن

سمینار:
معرفی دادگان درختی زبان فارسی بر اساس HPSG و نحوۀ تهیه آن
 
سخنران: مسعود قیومی
دانشجوی دوره دکترای زبان‌شناسی رایانشی
دانشگاه برلین
 
همان‌طور که می‌دانیم دستور زبان نقش بسیار کلیدی در درک زبان بازی می‌کند، بنابراین برای رسیدن به معنی الزاما می‌بایست از دریچه دستور وارد شد. تحلیل نحوی در رایانه به دو صورت انجام می‌گیرد: قاعده‌مند یا آماری. تجزیه‌گرهای آماری  نیاز به حجم قابل توجهی داده نشانه‌گذاری‌شده، مانند دادگان درختی تحلیل جملات، دارد. از آنجا که بیشتر منابع زبانی مورد اعتماد توسط انسان تهیه می‌شود، این کار بسیار دشوار، خسته‌کننده، و زمان‌بر است. بر همین اساس ممکن است چنین منابع زبانی برای همه زبان‌ها وجود نداشته باشد. از آنجا که بخش عظیمی از زبان قاعده‌مند است، می‌توان با استفاده از عبارات قاعده‌مند (regular expression)و با کمک‌گرفتن از روش افزایشی مبتنی-بر-ذات (bootstrapping) بخش قابل توجهی از روند تهیه این منابع را به صورت خودکار انجام داد. به این طریق، با استخراج عبارات قاعده‌مند از تعداد اندک و اولیه دادگان می‌توان زنجیره‌ای از کلمات را که با چنین قواعدی منطبق است تشخیص داده و در نتیجه از تلاش انسان برای نشانه‌گذاری این زنجیره کلمات کاست، و در نهایت از همین زنجیره‌ها برای استخراج قواعد جدید و نشانه‌گذاری زنجیره کلمات جدیدتر استفاده کرد. در این سخنرانی به نحوه تهیه دادگان درختی جملات فارسی در چارچوب دستور ساخت سازه‌ای هسته-بنیاد (HPSG) و تلاش برای کاهش‌دادن تلاش انسان با کمک رویکرد ذکر شده در تهیه این دادگان پرداخته می‌شود.
 
زمان: یکشنبه 11 تیرماه ساعت 10 صبح
مکان: اتاق سمعی – بصری مرکز زبان‌ها و زبان‌شناسی
 
---
 
کارگاه آموزشی:
پردازش نحو زبان با رویکردهای آماری و قاعده‌مند
 
مدرس: مسعود قیومی
دانشجوی دوره دکترای زبان‌شناسی رایانشی
دانشگاه برلین
 
زمان: یکشنبه 11 تیرماه ساعت 11 الی 13
مکان: اتاق سمعی – بصری مرکز زبان‌ها و زبان‌شناسی
۰۴ تیر ۹۱ ، ۱۲:۱۷ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

سمینار معرفی پروژۀ دادگان زبان فارسی در دانشگاه صنعتی شریف برگزار شد

سمینار معرفی پروژۀ دادگان زبان فارسی در روز چهارشنبه، 14 اردیبهشت 1391 در مرکز زبان‌ها و زبان‌شناسی دانشگاه صنعتی شریف برگزار شد.

در این سمینار که با حضور اساتید و دانشجویان زبانشناسی رایانشی دانشگاه صنعتی شریف و همچنین دانشجویان رشته‌های مهندسی کامپیوتر و زبان‌شناسی این دانشگاه و دانشگاه‌های دیگر برگزار شد، محمدصادق رسولی، سرپرست پروژه به معرفی نحوۀ شکل‌گیری و اهداف پروژه و همچنین روش‌های زبانشناختی و پردازشی به کار رفته درپروژه پرداختند و به سوالات مطرح شده توسط حضار پاسخ گفتند.

سرپرست پروژه با بیان اینکه مرحلۀ برچسب‌زنی پیکرۀ وابستگی توسط تیم زبان‌شناسی پروژه رو به اتمام است افزود: "به زودی مرحلۀ بازبینی و ویرایش پیکرۀ وابستگی آغاز می‌شود و ان‌شاا... تا پایان تابستان سال جاری نسخه‌های نهایی پیکرۀ وابستگی و فرهنگ ظرفیت افعال زبان فارسی در اختیار علاقه‌مندان قرار خواهد گرفت."

محمدصادق رسولی همچنین به کاربرد‌های فرهنگ ظرفیت افعال و پیکرۀ وابستگی زبان فارسی در پژو‌هش‌های زبانشناختی و آموزش زبان اشاره کرد و افزود: "تعدادی نرم افزار تحت وب با این هدف در حال آماده‌سازی است که به امید خدا پس از تکمیل، لینک‌های مربوط به آن‌ها در وب‌گاه پروژه قرار خواهد گرفت."

وی در پایان نیز ضمن تشکر از توجه حضار، از تمامی علاقه‌مندان و متخصصان دعوت نمود تا نظرات و پیشنهادهای خود را در خصوص پروژه دادگان زبان فارسی و فازهای احتمالی پس از آن در اختیار تیم پروژه قرار دهند.


 
۱۶ ارديبهشت ۹۱ ، ۱۲:۲۶ ۱ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

سمینار معرفی دادگان وابستگی در دانشگاه شریف

زمان: چهارشنبه 13 اردیبهشت 1391، ساعت 14-15

مکان: دانشگاه صنعتی شریف، مرکز زبان‌ها و زبان‌شناسی، اتاق سمعی و بصری


۱۲ ارديبهشت ۹۱ ، ۰۵:۲۳ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

ابزار فعل‌یاب زبان فارسی به زبان سی‌شارپ

این برنامه دارای قابلیت شناخت تصریف‌های پیچیدۀ افعال ساده و پیشوندی و همین طور فعل‌های مرکب با فاصلۀ دور است.

صفحۀ دریافت برنامۀ متن‌باز:

https://github.com/rasoolims/PersianVerbAnalyzer


لطفاً پیشنهادها و اشکالات موجود را با تماس اینترنتی در میان بگذارید: rasooli.ms{#a#t}gmail.com

۲۷ فروردين ۹۱ ، ۱۱:۳۸ ۱ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

گفت‌وگو با محمدصادق رسولی در خصوص کارکرد پروژه دادگان و پردازش متون زبانی

گفت‌وگو با محمدصادق رسولی در خصوص کارکرد پروژه دادگان و پردازش متون زبانی

گروه دادگان زبان فارسی، برای جامعه علمی داخل و خارج

نسترن صادقی

 

تهران امروز

 

 

پیوند خبر:

http://www.tehrooz.com/1390/11/16/TehranEmrooz/824/Page/13/

 

 محمد صادق رسولی در حال حاضر مسئولیت پروژه دادگان وابستگی گروه دادگان زبان فارسی را بر عهده دارد. او کارشناسی نرم‌افزار و کارشناسی ارشد هوش مصنوعی را از دانشگاه علم و صنعت ایران اخذ کرده است.در خصوص کارکرد پروژه دادگان و پردازش متون زبانی با او به گفت‌وگو نشسته‌ایم.

 

 

 هدف از پردازش هوشمند متون زبانی چیست؟

 

هدف از پردازش زبان را می‌توان در چند دیدگاه جست‌وجو کرد. در یک دیدگاه، شناخت‌گرایان سعی می‌کنند با روش‌های هوشمند رایانه‌ای رفتارهای شناختی انسان را شبیه‌سازی می‌کنند و از نتایج به دست آمده تعمیم‌هایی به دست می‌آورند. یک دیدگاه سطح پایین‌تر نیز وجود دارد، دیدگاهی که معتقد است رایانه باید در هر مسئله‌ای بتواند کار را برای انسان راحت کند. انسان، خود یک متخصص خبره است که با استفاده از هوشمندی نسبی رایانه این خبرگی را می‌تواند به یک سامانه هوشمند منتقل کند. مثلاً اگر یک روزی برای خرید بلیت قطار به متخصص فروش (یعنی فروشنده باجه ایستگاه) مراجعه می‌کردید، اکنون یک خبره هوشمند رایانه‌ای تحت وب برایتان طراحی شده است که از طریق آن می‌توانید بدون مراجعه حضوری آن کار را سریع‌تر انجام دهید. در مورد زبان نیز همین مسئله صدق می‌کند. مثلاً هم‌اکنون نرم‌افزارهایی مانند «رُزِتا استون» برای چنین کاربردهایی طراحی شده‌اند و یا برای آزمون‌هایی مانند تافل، بخش اعظم ارزیابی‌ها به صورت هوشمند و رایانه‌ای انجام می‌شود...

ادامه مطلب...
۲۵ بهمن ۹۰ ، ۱۲:۲۸ ۴ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

تأثیر یادگیری وفقی بر خطایابی املایی فارسی

این مقاله به تازگی در مقالات هفتمین همایش پردازش زبان طبیعی و مهندسی دانش (توکوشیما، ژاپن) چاپ شده است. در چکیدۀ این مقاله می‌خوانیم:

Effect of Adaptive Spell checking in Persian

In computers era, the flow of producing digital documents simply overwhelmed the traditional manual spell checking, the worst new type of misspelling called typographical errors have been created by machinery text production and management. Therefore, referring to human intolerable load of digital text's spell checking also the irrecusable ability of computers, including accuracy and speed, automatic spell checking using computer systems would be an important application of computer systems. Different users may have their own misspelling patterns or habits so we believe that using a traditional automatic spell checker using a fix set of rules may not be well performable for all kind of misspelling patterns. Therefore, in this paper, we investigate the effect of adaptive spell checking on Persian language comparing a non-adaptive traditional spell checking. Evaluation results show using adaptive spell checking is superior and more efficient than traditional spell checking with a fix set of rules after a short time of usage.

دریافت مقاله

پایۀ اولیۀ این روش در مقالۀ «روشی جدید در خطایابی املایی زبان فارسی» در «دومین همایش داده‌کاوی ایران - 1387» در دانشگاه صنعتی امیرکبیر ارائه شده است.

روشی جدید در خطایابی املایی زبان فارسی

دریافت مقاله

۱۰ بهمن ۹۰ ، ۰۴:۱۲ ۲ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

عرضۀ رایگان اولین پیکرۀ وابستگی زبان فارسی

نسخۀ 0.1 پیکرۀ وابستگی نحوی زبان فارسی به تازگی برای استفادۀ غیرتجاری عرضه شده است. برای تهیۀ نسخۀ جدید پیکرۀ وابستگی، به صفحۀ دریافت آن مراجعه نمایید.


۰۹ بهمن ۹۰ ، ۱۵:۴۲ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی