پردازش زبان طبیعی و زبان‌شناسی رایانه‌ای

۴ مطلب در تیر ۱۳۹۱ ثبت شده است

پیش‌بینی ساخت‌های زبانی

این جلسات به عنوان دورۀ فشردۀ پردازش زبانی بر اساس برخی از مباحث کتاب «پیش‌بینی ساخت‌های زبانی» نوشتۀ نوح اسمیت (2011) آماده و در جلسات فنی مرکز تحقیقات کامپیوتری علوم اسلامی ارائه شده است.

جلسۀ 1

جلسۀ 2

جلسۀ 3

جلسۀ 4

۲۷ تیر ۹۱ ، ۱۱:۲۴ ۳ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

تجزیۀ وابستگی بی‌ناظر سریع

این مقاله در کارگاه تخصصی یادگیری بی‌ناظر و نیمه‌ناظر زبان طبیعی در فرانسه ارائه شده است.


Mohammad Sadegh Rasooli and Heshaam Faili, "Fast Unsupervised Dependency Parsing with Arc-Standard Transitions", in EACL workshop on ROBUS-UNSUP 2012: Joint Workshop on Unsupervised and Semi-Supervised Learning in NLP, Avignon, France, 2012.

۱۳ تیر ۹۱ ، ۱۳:۱۹ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

استنتاج بی‌ناظر ظرفیت فعل در زبان فارسی بر مبنای دستور وابستگی

استنتاج بی‌ناظر ظرفیت فعل در زبان فارسی بر مبنای دستور وابستگی

پایان‌نامه برای دریافت درجۀ کارشناسی ارشد

در رشتۀ مهندسی کامپیوتر گرایش هوش مصنوعی و رباتیک

 

نام دانشجو:

محمدصادق رسولی

 

استاد راهنما:

دکتر بهروز مینایی بیدگلی

 

استاد مشاور:

دکتر هشام فیلی


دریافت متن پایان‌نامه


دریافت ارائۀ پایان‌نامه


چکیده

فعل اصلی‌ترین جزء جمله در زبان است و زبان فارسی از این قاعده مستثنی نیست. مفهوم ظرفیت از نظریۀ دستور وابستگی در زبان‌شناسی نوین اقتباس شده است. ظرفیت فعل نشان‌دهندۀ متمم‌های مورد نیاز فعل برای خوش‌ساخت کردن جمله است. شناخت ساخت ظرفیتی در زبان از سه جهت اهمیت دارد. نخست این که با شناخت ساخت‌های ظرفیتی می‌توان سامانه‌های مبتنی بر دستور واژگانی طراحی کرد. دومین جهت استفاده از ساخت‌های ظرفیتی برای کاربردهای تجزیۀ نحوی و معنایی زبان به صورت هوشمند است. سومین جهت نیز استفاده از آن برای کاربردهای شناختی در زبان‌شناسی نظری است. در این پایان‌نامه پس از مرور ادبیات موضوع پیرامون روش‌های پردازش زبان طبیعی در سطح نحو و روش‌های یادگیری زبان، به بررسی ساختار فعل و ظرفیت فعل در زبان پرداخته شده است. پس از مروری بر مفاهیم فعل، دستور وابستگی، ظرفیت در دستور وابستگی و روش‌های استخراج بی‌ناظر ظرفیت فعل در زبان فارسی، روش‌هایی برای استخراج بی‌ناظر فعل مرکب در زبان فارسی و ظرفیت افعال زبان فارسی پیشنهاد و آزموده شده است. به دلیل نیاز واژگانی زبان، نگارنده به همراه همکارانش اقدام به ایجاد اولین فرهنگ ظرفیت فعل در زبان فارسی و اولین پیکرۀ وابستگی نحوی زبان کرده‌اند تا بتوان به وسیلۀ آن‌ها پردازش زبان فارسی را در سطح نحو بهبود و گسترش داد. در نهایت نیز جمع‌بندی و پیشنهادهایی در مورد ادامۀ کار این پژوهش برای بسط روش‌های پردازشی مبتنی بر دستور وابستگی در زبان فارسی پیشنهاد شده است. در زمینۀ استخراج فعل مرکب با پیشنهاد دو روش تلفیقی، روش‌های سنتی مورد بهبود چشمگیر قرار گرفته‌اند. الگوریتم‌های مختلف در مورد شناخت ظرفیت فعل نیز شناخته شده، مورد آزمون قرار گرفتند که از این میان الگوریتم امیدیابی-بیشینه‌سازی بهترین نتایج را از آن خود کرده است.

 

واژه‌های کلیدی: پردازش زبان طبیعی، دستور وابستگی، نحو، فعل، ظرفیت فعل، فعل مرکب، زبان فارسی، استخراج بی‌ناظر.

۱۳ تیر ۹۱ ، ۱۳:۰۹ ۲ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

معرفی دادگان درختی زبان فارسی بر اساس HPSG و نحوۀ تهیه آن

سمینار:
معرفی دادگان درختی زبان فارسی بر اساس HPSG و نحوۀ تهیه آن
 
سخنران: مسعود قیومی
دانشجوی دوره دکترای زبان‌شناسی رایانشی
دانشگاه برلین
 
همان‌طور که می‌دانیم دستور زبان نقش بسیار کلیدی در درک زبان بازی می‌کند، بنابراین برای رسیدن به معنی الزاما می‌بایست از دریچه دستور وارد شد. تحلیل نحوی در رایانه به دو صورت انجام می‌گیرد: قاعده‌مند یا آماری. تجزیه‌گرهای آماری  نیاز به حجم قابل توجهی داده نشانه‌گذاری‌شده، مانند دادگان درختی تحلیل جملات، دارد. از آنجا که بیشتر منابع زبانی مورد اعتماد توسط انسان تهیه می‌شود، این کار بسیار دشوار، خسته‌کننده، و زمان‌بر است. بر همین اساس ممکن است چنین منابع زبانی برای همه زبان‌ها وجود نداشته باشد. از آنجا که بخش عظیمی از زبان قاعده‌مند است، می‌توان با استفاده از عبارات قاعده‌مند (regular expression)و با کمک‌گرفتن از روش افزایشی مبتنی-بر-ذات (bootstrapping) بخش قابل توجهی از روند تهیه این منابع را به صورت خودکار انجام داد. به این طریق، با استخراج عبارات قاعده‌مند از تعداد اندک و اولیه دادگان می‌توان زنجیره‌ای از کلمات را که با چنین قواعدی منطبق است تشخیص داده و در نتیجه از تلاش انسان برای نشانه‌گذاری این زنجیره کلمات کاست، و در نهایت از همین زنجیره‌ها برای استخراج قواعد جدید و نشانه‌گذاری زنجیره کلمات جدیدتر استفاده کرد. در این سخنرانی به نحوه تهیه دادگان درختی جملات فارسی در چارچوب دستور ساخت سازه‌ای هسته-بنیاد (HPSG) و تلاش برای کاهش‌دادن تلاش انسان با کمک رویکرد ذکر شده در تهیه این دادگان پرداخته می‌شود.
 
زمان: یکشنبه 11 تیرماه ساعت 10 صبح
مکان: اتاق سمعی – بصری مرکز زبان‌ها و زبان‌شناسی
 
---
 
کارگاه آموزشی:
پردازش نحو زبان با رویکردهای آماری و قاعده‌مند
 
مدرس: مسعود قیومی
دانشجوی دوره دکترای زبان‌شناسی رایانشی
دانشگاه برلین
 
زمان: یکشنبه 11 تیرماه ساعت 11 الی 13
مکان: اتاق سمعی – بصری مرکز زبان‌ها و زبان‌شناسی
۰۴ تیر ۹۱ ، ۱۲:۱۷ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی