گفت‌وگو با محمدصادق رسولی در خصوص کارکرد پروژه دادگان و پردازش متون زبانی

گروه دادگان زبان فارسی، برای جامعه علمی داخل و خارج

نسترن صادقی

 

تهران امروز

 

 

پیوند خبر:

http://www.tehrooz.com/1390/11/16/TehranEmrooz/824/Page/13/

 

 محمد صادق رسولی در حال حاضر مسئولیت پروژه دادگان وابستگی گروه دادگان زبان فارسی را بر عهده دارد. او کارشناسی نرم‌افزار و کارشناسی ارشد هوش مصنوعی را از دانشگاه علم و صنعت ایران اخذ کرده است.در خصوص کارکرد پروژه دادگان و پردازش متون زبانی با او به گفت‌وگو نشسته‌ایم.

 

 

 هدف از پردازش هوشمند متون زبانی چیست؟

 

هدف از پردازش زبان را می‌توان در چند دیدگاه جست‌وجو کرد. در یک دیدگاه، شناخت‌گرایان سعی می‌کنند با روش‌های هوشمند رایانه‌ای رفتارهای شناختی انسان را شبیه‌سازی می‌کنند و از نتایج به دست آمده تعمیم‌هایی به دست می‌آورند. یک دیدگاه سطح پایین‌تر نیز وجود دارد، دیدگاهی که معتقد است رایانه باید در هر مسئله‌ای بتواند کار را برای انسان راحت کند. انسان، خود یک متخصص خبره است که با استفاده از هوشمندی نسبی رایانه این خبرگی را می‌تواند به یک سامانه هوشمند منتقل کند. مثلاً اگر یک روزی برای خرید بلیت قطار به متخصص فروش (یعنی فروشنده باجه ایستگاه) مراجعه می‌کردید، اکنون یک خبره هوشمند رایانه‌ای تحت وب برایتان طراحی شده است که از طریق آن می‌توانید بدون مراجعه حضوری آن کار را سریع‌تر انجام دهید. در مورد زبان نیز همین مسئله صدق می‌کند. مثلاً هم‌اکنون نرم‌افزارهایی مانند «رُزِتا استون» برای چنین کاربردهایی طراحی شده‌اند و یا برای آزمون‌هایی مانند تافل، بخش اعظم ارزیابی‌ها به صورت هوشمند و رایانه‌ای انجام می‌شود. تلفیق این دو دیدگاه باعث پدید آمدن روندهای جدیدی در پردازش هوشمند متون شده است که حتی تا حدودی در زبان‌شناسی نظری نیز تأثیر گذاشته است. به عنوان مثالی از این تأثیر، می‌توان به دستور درخت الحاقی از آریواند جوشی استاد دانشگاه پنسیلوانیا اشاره کرد که این دستور تعمیمی است بر دستور زایشی عبارت‌محورِ چامسکی که برای کارهای پردازشی بهینه‌تر است.

 

دیدگاه سومی نیز وجود دارد که از بعد نظری به دیدگاه اول و از نظر عملیاتی به دیدگاه دوم نزدیک‌تر است. مدیریت حجم زیاد اطلاعات در دنیا کاری بس شگرف است و حتی دیگر با توان کار انسان قابل انجام نیست. چون این اطلاعات به قدری افزایش یافته است که دیگر نمی‌توان با روش‌های دستی و در زمان مناسب این اطلاعات را سامان داد، بخشی از این سامان‌دهی صرفاً مربوط به بُعد نرم‌افزاری می‌شود ولی بُعد محتوایی آن مسئله‌ای است که بسیاری از نهادها و شرکت‌های بزرگ در دنیا به فکر حل چالش‌های موجود در این مسئله افتاده‌اند. مثال ساده و دمِ دستی را می‌توان در شرکت گوگل و خدمات هوشمند آن که به کاربرانش به صورت رایگان می‌دهد، دید. ساده‌ترین خدمات این شرکت که برای همه ملموس شده است، ترجمه خودکار بین‌زبانی و خطایابی و تصحیح املای پرس و جوی کاربران جست‌وجو است. این تازه نکته شفاف مسئله است. پیشنهاد می‌کنم قسمت تقدیر و تشکر مقالات چند سال اخیر انجمن بین‌المللی زبان‌شناسی رایانه‌ای را مطالعه کنید. خواهید دید که اسامی نهادهایی مانند سازمان فضایی آمریکا (ناسا) و سازمان پژوهش‌های دفاعی آمریکا (دارپا) به عنوان حامیان مالی چنین پروژه‌هایی بسیار به چشم می‌خورد. کارهایی مانند پیگیری محتوا، موضوع‌یابی و حتی جاسوسی از طریق شنود هوشمند یا پردازش محتوای وب از جمله کارهایی است که با پردازش هوشمند زبان با دقت بسیار خوبی قابل دسترسی است. تا آنجا که مطلع هستم، چند سالی است که نهادهای دولتی و نظامی ایران نیز به اهمیت این موضوع پی برده‌اند و پروژه‌هایی در حوزه پردازش زبان و متن‌کاوی ارائه کرده‌اند.

 

برای پردازش هوشمند زبان به چه ابزارهایی نیاز هست؟

 

برای پردازش هوشمند، ابزارهای متن‌باز فراوانی وجود دارد. از جمله محاسنی که در روش‌های هوش مصنوعی وجود دارد این است که عمده آنها بر حسب داده‌ای که دریافت می‌کنند، الگوی یادگیری می‌سازند؛ همچنین این روش‌ها خیلی وابسته به زبان خاصی نیستند. بدین معنا که شما می‌توانید تا حد زیادی از همان ابزاری که برای پردازش زبان فرانسوی یا انگلیسی استفاده می‌کنید، با اندکی تغییر برای زبان فارسی نیز استفاده نمایید. البته در بعضی از سطوح مانند سطح ساخت‌واژه و واژه‌شناسی این مسئله کمرنگ‌تر است و نیاز به ساخت سامانه‌های خاص برای هر زبان وجود دارد. به عنوان مثال، ما در حین کار پروژه خود مجبور شدیم، سامانه‌ای برای تصریف و شناخت انواع فعل در زبان فارسی بسازیم. دلیل این کار هم این بود که زبان فارسی از این نظر بسیار خاص بوده، نمی‌توان از ابزارهای زبان‌های دیگر برای این کار بهره گرفت. امّا اگر بخواهیم ابزارها را فهرست کنیم، دقیقاً به تعداد کاربردهای زبان‌شناختی نیاز به ابزارهای تحلیل وجود دارد؛ مانند خطایاب املایی، خطایاب نحوی، تصریف‌گر، تجزیه‌گر نحو، معنا و گفتمان، استخراج واژه‌های مرکب، استخراج اسامی خاص، شناخت هم‌مرجع‌های زبانی و مترجم هوشمند بین‌زبانی.

 

آیا دادگان موجود زبان فارسی برای این کار کفایت می‌کند؟

 

به نظر من با توجه به کاربردهایی که عرض کردم آن قدر وضعیت دادگانی ما ضعیف است که نمی‌شود حتی نام دادگان را برای آن برگزید. از زمانی که جناب آقای دکتر عاصی پیکره‌شان را عرضه کردند، تاکنون پیکره‌هایی مانند پیکره مرکز علائم هوشمند در سطح صرف و برچسب اجزای سخن (با پژوهش دکتر بی‌جن‌خان)، پیکره فارس‌دات (دکتر بی‌جن‌خان)، پیکره دو زبانه فارسی- انگلیسی (دکتر موسوی میانگاه)، پیکره دوزبانه فارسی- انگلیسی محاوره‌ای از زیرنویس فیلم‌های هالیوودی دانشگاه تهران (دکتر فیلی) و پیکره دوزبانه دبیرخانه شورای عالی اطلاع‌رسانی (در حال انجام)، پیکره رده‌های متنی همشهری (دانشگاه تهران) و پیکره بازیابی اطلاعات دات‌آی‌آر (محک) نیز ارائه شده‌اند که از نظر من هنوز بسیار فاصله داریم از آن چیزی که باید باشد. ما هم‌اکنون به این مسئله می‌بالیم که اولین پیکره نحوی وابستگی زبان فارسی را ارائه کرده‌ایم، در حالی که چنین پیکره‌ای حدود 8 سال پیش در زبان‌های دیگر مانند سوئدی، هلندی، دانمارکی، آلمانی، عربی، ترکی و ژاپنی وجود داشته است. البته از این نظر فاصله‌مان بسیار کم شده است؛ چرا که مثلاً فاصله اولین پیکره در سطح صرف (براون) در زبان انگلیسی با اولین پیکره زبان فارسی نزدیک به 40 سال بوده است. هم‌اکنون در کشورهای دیگر مانند فرانسه، سوئد و آلمان، اطلاع دارم که پروژه‌های دادگانی زبان فارسی تعریف می‌شود. این که آنها چه هدفی از تعریف این پروژه‌ها دارند، جای بحث دارد اما نکته حائز اهمیت این است که آنها به اهمیت چنین پروژه‌هایی پی برده‌اند در حالی که در جامعه علمی داخل این اتفاق آن طور که باید نیفتاده است.

 

برای تهیه دادگان نحوی چه باید کرد؟

 

جواب ساده‌اش این است که باید با انتخاب رویکرد زبانی مناسب و کارا برای زبان فارسی، سریعاً اقدام به برچسب‌زنی کرد. در سال‌های قبل، پیکره‌ها با وسواس بسیار زیادی جمع‌آوری می‌شد ولی یکی دو سال است که دانشگاه‌های سطح اول دنیا به این نتیجه رسیده‌اند که حجم زیاد پیکره اهمیت بیشتری دارد. مثلاً اگر شما با وسواس، خطای حاشیه‌نویسی دادگان را به 1 درصد برسانید، ممکن است به اندازه دادگانی با چند برابر حجم و با حدود 5 درصد خطا، کارا نباشد. چون روش‌های هوشمند عمدتاً بر بنیان‌های آماری بنا شده‌اند و در روش‌های آماری وجود خدشه و خطا در داده همیشه در نظر گرفته می‌شود. ما هم به این نتیجه رسیده‌ایم که نخست با شناخت یک رویکرد بهینه، پس از انجام مطالعات و تشکیل کارگروه‌های مباحثه‌ای این کار را به نحو احسن انجام دهیم. این پروژه از تابستان سال 1389 شروع شده است و ممکن است با ادامه یافتن کار در سطح معنا تا دو سال دیگر نیز ادامه یابد.

 

هدف اصلی این پروژه که در مرکز تحقیقات کامپیوتری علوم اسلامی انجام می‌شود چیست؟

 

به دلیل اشتراک‌های مدیریتی مرکز تحقیقات کامپیوتری علوم اسلامی (نور) با دبیرخانه شورای عالی اطلاع‌رسانی، این پروژه در معاونت تهرانِ نور در حال انجام است ولی بانی این پروژه دبیرخانه شورای عالی اطلاع‌رسانی است. هدف اصلی این پروژه ترویج زبان فارسی در محیط‌های فناوری با در نظر گرفتن اولویت‌های پردازشی و آموزشی است. فراهم کردن یک زیرساخت مناسب دادگانی برای پژوهشگران هدفی است که ما به دنبال آن هستیم و طیف مخاطبانی که تاکنون داشته‌ایم نشان‌دهنده این مسئله است که در حال نزدیک شدن به این هدف هستیم.

 

در حال حاضر وضعیت این پروژه چگونه است ؟ آیا در این زمینه موفق بوده است؟

 

در آغاز ما با انتخاب دستور وابستگی و مفهوم ظرفیت واژگانی، اقدام به مطالعه در مورد نحوه ساخت یک پیکره درختی نحوی کردیم. در همین حین به صورت موازی، بر اساس نظرات کتاب «ظرفیت فعل» دکتر امید طبیب‌زاده، اقدام به جمع‌آوری دادگان فرهنگ ظرفیت فعل در زبان فارسی کردیم. این مجموعه و همین طور پیکره وابستگی در وبگاه به صورت رایگان قرار داده شده است. پس از آن جملاتی را به صورت تصادفی از وب جمع‌آوری کرده، برچسب‌زنی کردیم. هم‌اکنون با در نظر گرفتن فعل‌هایی که در پیکره کنونی دیده نشده‌اند، جملات نمونه‌ای را از وب به صورت تصادفی جمع‌آوری و پالایش می‌کنیم که دارای فعل‌های مذکور باشند. بدین‌ترتیب با توجه به مرکزیت فعل در دستور وابستگی، پیکره‌ای خواهیم داشت که در آن عمده فعل‌های زبان فارسی حضور داشته باشند. هم‌اکنون، در این پروژه سه کار به صورت هم‌زمان انجام می‌شود. برچسب‌زنی جملات جدید در سطح صرف و نحو، ویرایش جملات برچسب‌زنی شده و پالایش آن از خطاها و مطالعه در مورد نحوه ارتقای این پیکره از سطح نحو به معنا. امید است که بتوانیم در مدت‌زمان کوتاهی پیکره معنایی زبان فارسی را نیز ارائه دهیم. تاکنون نیز از دانشگاه‌های مختلف در کشورهای ایران، آمریکا، کانادا، آلمان، چک، تاجیکستان، سوئد، بلغارستان، فرانسه، قطر، پاکستان، هند، انگلستان، اتریش و هلند درخواست داده داشته‌ایم. عمده این افراد پژوهشگران پردازش زبان طبیعی یا زبان‌شناسان متخصص در زمینه زبان فارسی بوده‌اند. برخی از افراد زبان‌شناس اصالتاً ایرانی و برخی دیگر آشنا به زبان فارسی بوده‌اند.

 

در کنار این مسائل، طرح نسخه تحت وب فرهنگ ظرفیت با امکانات جست‌وجوی پیشرفته، امکان تحلیل زبانی، خطایابی نحوی و املایی برای اهداف آموزشی از اسفندماه آغاز خواهد شد. هدف از این نسخه، ارتقای آموزش زبان فارسی در سطح بین‌المللی است. با توجه به طیف وسیع مخاطبان به این نتیجه رسیده‌ایم که این نرم‌افزار تحت وب، می‌تواند به عنوان یک ابزار آموزشی زبان در کلاس‌های درس مورد استفاده قرار گیرد.

 

و در پایان

 

فکر می‌کنم ما آن طور که از جامعه پردازشی و زبانی خارج از کشور بازخورد داشته‌ایم، از داخل بازخورد زیادی ندیدیم. استادانی مانند دکتر طبیب‌زاده با تبادل اطلاعات و نظرهایشان با گروه ما بسیار از این نظر به ما کمک کردند ولی به نظر من با توجه به جوان بودن اعضای پژوهشی این پروژه بیش از اینها نیاز به تبادل نظر وجود دارد و از همین طریق از همه علاقه‌مندان به زبان‌شناسی، زبان فارسی و یا مسائل پردازشی زبان دعوت می‌کنم با گروه ما در ارتباط باشند و با نظرهایشان به ارتقای کار ما کمک کنند. امیدوارم زحمات دوستان در گروه دادگان برای جامعه علمی داخل و خارج مفید واقع شود.