پردازش زبان طبیعی و زبان‌شناسی رایانه‌ای

۸ مطلب با کلمه‌ی کلیدی «ارائه» ثبت شده است

ویدئوی ارائهٔ من در یوتیوب

اخیراً، خلاصه‌ای از کار پژوهشی دورهٔ دکترایم را (که رو به اتمام است) در مؤسسهٔ پژوهشی هوش مصنوعی آلن در سیاتل ارائه کردم و از قضا این ارائه در یوتیوب گذاشته شده است. اگر علاقه‌مندید، به پیوند زیر مراجعه نمایید.


پیوند به صفحهٔ یوتیوب



۲۴ آبان ۹۶ ، ۰۶:۴۰ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

همایش‌های اخیر و مقاله‌ای در پردازش زبان فارسی

سلام،

بعد از مدت طولانی خراب شدن بلاگفا و پاک شدن پاره‌ای از اطلاعات باید دوباره مطلب بگذارم.

در این مدت اتفاقات زیادی در حوزهٔ‌ پردازش زبان افتاده است: NAACL 2015 و ACL-IJCNLP 2015 برگزار شدند و EMNLP 2015 به زودی برگزار خواهد شد. ویدئو ارائه‌های NAACL 2015 از این پیوند قابل دریافت است.

کتاب‌های مرگان کلی‌پول هم به روز شده‌اند و کتابی در مورد شباهت معنایی به تازگی منتشر شده است.

 

ما هم به تازگی مقاله‌ای در ACL-IJCNLP در مورد ساخت اضافه در زبان فارسی داشتیم که پیشنهاد می‌کنم اگر به موضوع پردازش زبان فارسی علاقه‌مندید مطالعه کنید:

Alireza Nourian, Mohammad Sadegh Rasooli, Mohsen Imany, and Heshaam FailiOn the Importance of Ezafe Construction in Persian Parsing. The 53rd Annual Meeting of the Association for Computational Linguistics (ACL) and the 7h International Joint Conference on Natural Language Processing (IJCNLP), Beijing, China, July 2015.

همچنین مقاله‌ای را برای EMNLP در مورد تجزیهٔ وابستگی با استفاده از داده‌های دوزبانه در دست انتشار داریم که ان‌شاءالله به زودی در وبلاگ خواهم گذاشت.

۱۲ مرداد ۹۴ ، ۰۲:۵۱ ۳ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

پیش‌پردازش نحوی زبان مبدأ برای بهبود کارایی ترجمهٔ آماری

این ارائه خلاصهٔ دو مقاله در رابطه با پیش‌پردازش نحوی برای بهبود ترجمه است. در این روش‌ها، برای بهبود دقت ترجمه چه در سطح هم‌ترازی و چه در سطح رمزگشایی، ترتیب کلمات جملات زبان مبدأ با توجه به نحو موجود در جمله تغییر می‌کند.

دریافت ارائه

مقالات:
  1. Michael Collins, Philipp Koehn, & Ivona Kučerová: Clause restructuring for statistical machine translation . ACL 2005.
  2. Peng Xu, Jaeho Kang, Michael Ringgard, & Franz Och: Using a dependency parser to improve SMT for subject-object-verb languages . NAACL 2009.

۲۱ فروردين ۹۲ ، ۰۲:۵۰ ۱ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

پیش‌بینی ساخت‌های زبانی

این جلسات به عنوان دورۀ فشردۀ پردازش زبانی بر اساس برخی از مباحث کتاب «پیش‌بینی ساخت‌های زبانی» نوشتۀ نوح اسمیت (2011) آماده و در جلسات فنی مرکز تحقیقات کامپیوتری علوم اسلامی ارائه شده است.

جلسۀ 1

جلسۀ 2

جلسۀ 3

جلسۀ 4

۲۷ تیر ۹۱ ، ۱۱:۲۴ ۳ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

معرفی دادگان درختی زبان فارسی بر اساس HPSG و نحوۀ تهیه آن

سمینار:
معرفی دادگان درختی زبان فارسی بر اساس HPSG و نحوۀ تهیه آن
 
سخنران: مسعود قیومی
دانشجوی دوره دکترای زبان‌شناسی رایانشی
دانشگاه برلین
 
همان‌طور که می‌دانیم دستور زبان نقش بسیار کلیدی در درک زبان بازی می‌کند، بنابراین برای رسیدن به معنی الزاما می‌بایست از دریچه دستور وارد شد. تحلیل نحوی در رایانه به دو صورت انجام می‌گیرد: قاعده‌مند یا آماری. تجزیه‌گرهای آماری  نیاز به حجم قابل توجهی داده نشانه‌گذاری‌شده، مانند دادگان درختی تحلیل جملات، دارد. از آنجا که بیشتر منابع زبانی مورد اعتماد توسط انسان تهیه می‌شود، این کار بسیار دشوار، خسته‌کننده، و زمان‌بر است. بر همین اساس ممکن است چنین منابع زبانی برای همه زبان‌ها وجود نداشته باشد. از آنجا که بخش عظیمی از زبان قاعده‌مند است، می‌توان با استفاده از عبارات قاعده‌مند (regular expression)و با کمک‌گرفتن از روش افزایشی مبتنی-بر-ذات (bootstrapping) بخش قابل توجهی از روند تهیه این منابع را به صورت خودکار انجام داد. به این طریق، با استخراج عبارات قاعده‌مند از تعداد اندک و اولیه دادگان می‌توان زنجیره‌ای از کلمات را که با چنین قواعدی منطبق است تشخیص داده و در نتیجه از تلاش انسان برای نشانه‌گذاری این زنجیره کلمات کاست، و در نهایت از همین زنجیره‌ها برای استخراج قواعد جدید و نشانه‌گذاری زنجیره کلمات جدیدتر استفاده کرد. در این سخنرانی به نحوه تهیه دادگان درختی جملات فارسی در چارچوب دستور ساخت سازه‌ای هسته-بنیاد (HPSG) و تلاش برای کاهش‌دادن تلاش انسان با کمک رویکرد ذکر شده در تهیه این دادگان پرداخته می‌شود.
 
زمان: یکشنبه 11 تیرماه ساعت 10 صبح
مکان: اتاق سمعی – بصری مرکز زبان‌ها و زبان‌شناسی
 
---
 
کارگاه آموزشی:
پردازش نحو زبان با رویکردهای آماری و قاعده‌مند
 
مدرس: مسعود قیومی
دانشجوی دوره دکترای زبان‌شناسی رایانشی
دانشگاه برلین
 
زمان: یکشنبه 11 تیرماه ساعت 11 الی 13
مکان: اتاق سمعی – بصری مرکز زبان‌ها و زبان‌شناسی
۰۴ تیر ۹۱ ، ۱۲:۱۷ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

آشنایی با تجزیۀ وابستگی

این درس به تاریخ 17 اردیبهشت در کلاس پردازش زبان‌های طبیعی دانشکدۀ مهندسی برق و کامپیوتر دانشگاه تهران ارائه شده است.


دریافت

۲۶ ارديبهشت ۹۱ ، ۰۶:۱۶ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

سمینار معرفی پروژۀ دادگان زبان فارسی در دانشگاه صنعتی شریف برگزار شد

سمینار معرفی پروژۀ دادگان زبان فارسی در روز چهارشنبه، 14 اردیبهشت 1391 در مرکز زبان‌ها و زبان‌شناسی دانشگاه صنعتی شریف برگزار شد.

در این سمینار که با حضور اساتید و دانشجویان زبانشناسی رایانشی دانشگاه صنعتی شریف و همچنین دانشجویان رشته‌های مهندسی کامپیوتر و زبان‌شناسی این دانشگاه و دانشگاه‌های دیگر برگزار شد، محمدصادق رسولی، سرپرست پروژه به معرفی نحوۀ شکل‌گیری و اهداف پروژه و همچنین روش‌های زبانشناختی و پردازشی به کار رفته درپروژه پرداختند و به سوالات مطرح شده توسط حضار پاسخ گفتند.

سرپرست پروژه با بیان اینکه مرحلۀ برچسب‌زنی پیکرۀ وابستگی توسط تیم زبان‌شناسی پروژه رو به اتمام است افزود: "به زودی مرحلۀ بازبینی و ویرایش پیکرۀ وابستگی آغاز می‌شود و ان‌شاا... تا پایان تابستان سال جاری نسخه‌های نهایی پیکرۀ وابستگی و فرهنگ ظرفیت افعال زبان فارسی در اختیار علاقه‌مندان قرار خواهد گرفت."

محمدصادق رسولی همچنین به کاربرد‌های فرهنگ ظرفیت افعال و پیکرۀ وابستگی زبان فارسی در پژو‌هش‌های زبانشناختی و آموزش زبان اشاره کرد و افزود: "تعدادی نرم افزار تحت وب با این هدف در حال آماده‌سازی است که به امید خدا پس از تکمیل، لینک‌های مربوط به آن‌ها در وب‌گاه پروژه قرار خواهد گرفت."

وی در پایان نیز ضمن تشکر از توجه حضار، از تمامی علاقه‌مندان و متخصصان دعوت نمود تا نظرات و پیشنهادهای خود را در خصوص پروژه دادگان زبان فارسی و فازهای احتمالی پس از آن در اختیار تیم پروژه قرار دهند.


 
۱۶ ارديبهشت ۹۱ ، ۱۲:۲۶ ۱ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی

سمینار معرفی دادگان وابستگی در دانشگاه شریف

زمان: چهارشنبه 13 اردیبهشت 1391، ساعت 14-15

مکان: دانشگاه صنعتی شریف، مرکز زبان‌ها و زبان‌شناسی، اتاق سمعی و بصری


۱۲ ارديبهشت ۹۱ ، ۰۵:۲۳ ۰ نظر موافقین ۰ مخالفین ۰
محمدصادق رسولی