گفتوگو با محمدصادق رسولی در خصوص کارکرد پروژه دادگان و پردازش متون زبانی
گروه دادگان زبان فارسی، برای جامعه علمی داخل و خارج
نسترن صادقی
تهران امروز
پیوند خبر:
http://www.tehrooz.com/1390/11/16/TehranEmrooz/824/Page/13/
محمد صادق رسولی در حال حاضر مسئولیت پروژه دادگان وابستگی گروه دادگان زبان فارسی را بر عهده دارد. او کارشناسی نرمافزار و کارشناسی ارشد هوش مصنوعی را از دانشگاه علم و صنعت ایران اخذ کرده است.در خصوص کارکرد پروژه دادگان و پردازش متون زبانی با او به گفتوگو نشستهایم.
هدف از پردازش هوشمند متون زبانی چیست؟
هدف از پردازش زبان را میتوان در چند دیدگاه جستوجو کرد. در یک دیدگاه، شناختگرایان سعی میکنند با روشهای هوشمند رایانهای رفتارهای شناختی انسان را شبیهسازی میکنند و از نتایج به دست آمده تعمیمهایی به دست میآورند. یک دیدگاه سطح پایینتر نیز وجود دارد، دیدگاهی که معتقد است رایانه باید در هر مسئلهای بتواند کار را برای انسان راحت کند. انسان، خود یک متخصص خبره است که با استفاده از هوشمندی نسبی رایانه این خبرگی را میتواند به یک سامانه هوشمند منتقل کند. مثلاً اگر یک روزی برای خرید بلیت قطار به متخصص فروش (یعنی فروشنده باجه ایستگاه) مراجعه میکردید، اکنون یک خبره هوشمند رایانهای تحت وب برایتان طراحی شده است که از طریق آن میتوانید بدون مراجعه حضوری آن کار را سریعتر انجام دهید. در مورد زبان نیز همین مسئله صدق میکند. مثلاً هماکنون نرمافزارهایی مانند «رُزِتا استون» برای چنین کاربردهایی طراحی شدهاند و یا برای آزمونهایی مانند تافل، بخش اعظم ارزیابیها به صورت هوشمند و رایانهای انجام میشود. تلفیق این دو دیدگاه باعث پدید آمدن روندهای جدیدی در پردازش هوشمند متون شده است که حتی تا حدودی در زبانشناسی نظری نیز تأثیر گذاشته است. به عنوان مثالی از این تأثیر، میتوان به دستور درخت الحاقی از آریواند جوشی استاد دانشگاه پنسیلوانیا اشاره کرد که این دستور تعمیمی است بر دستور زایشی عبارتمحورِ چامسکی که برای کارهای پردازشی بهینهتر است.
دیدگاه سومی نیز وجود دارد که از بعد نظری به دیدگاه اول و از نظر عملیاتی به دیدگاه دوم نزدیکتر است. مدیریت حجم زیاد اطلاعات در دنیا کاری بس شگرف است و حتی دیگر با توان کار انسان قابل انجام نیست. چون این اطلاعات به قدری افزایش یافته است که دیگر نمیتوان با روشهای دستی و در زمان مناسب این اطلاعات را سامان داد، بخشی از این ساماندهی صرفاً مربوط به بُعد نرمافزاری میشود ولی بُعد محتوایی آن مسئلهای است که بسیاری از نهادها و شرکتهای بزرگ در دنیا به فکر حل چالشهای موجود در این مسئله افتادهاند. مثال ساده و دمِ دستی را میتوان در شرکت گوگل و خدمات هوشمند آن که به کاربرانش به صورت رایگان میدهد، دید. سادهترین خدمات این شرکت که برای همه ملموس شده است، ترجمه خودکار بینزبانی و خطایابی و تصحیح املای پرس و جوی کاربران جستوجو است. این تازه نکته شفاف مسئله است. پیشنهاد میکنم قسمت تقدیر و تشکر مقالات چند سال اخیر انجمن بینالمللی زبانشناسی رایانهای را مطالعه کنید. خواهید دید که اسامی نهادهایی مانند سازمان فضایی آمریکا (ناسا) و سازمان پژوهشهای دفاعی آمریکا (دارپا) به عنوان حامیان مالی چنین پروژههایی بسیار به چشم میخورد. کارهایی مانند پیگیری محتوا، موضوعیابی و حتی جاسوسی از طریق شنود هوشمند یا پردازش محتوای وب از جمله کارهایی است که با پردازش هوشمند زبان با دقت بسیار خوبی قابل دسترسی است. تا آنجا که مطلع هستم، چند سالی است که نهادهای دولتی و نظامی ایران نیز به اهمیت این موضوع پی بردهاند و پروژههایی در حوزه پردازش زبان و متنکاوی ارائه کردهاند.
برای پردازش هوشمند زبان به چه ابزارهایی نیاز هست؟
برای پردازش هوشمند، ابزارهای متنباز فراوانی وجود دارد. از جمله محاسنی که در روشهای هوش مصنوعی وجود دارد این است که عمده آنها بر حسب دادهای که دریافت میکنند، الگوی یادگیری میسازند؛ همچنین این روشها خیلی وابسته به زبان خاصی نیستند. بدین معنا که شما میتوانید تا حد زیادی از همان ابزاری که برای پردازش زبان فرانسوی یا انگلیسی استفاده میکنید، با اندکی تغییر برای زبان فارسی نیز استفاده نمایید. البته در بعضی از سطوح مانند سطح ساختواژه و واژهشناسی این مسئله کمرنگتر است و نیاز به ساخت سامانههای خاص برای هر زبان وجود دارد. به عنوان مثال، ما در حین کار پروژه خود مجبور شدیم، سامانهای برای تصریف و شناخت انواع فعل در زبان فارسی بسازیم. دلیل این کار هم این بود که زبان فارسی از این نظر بسیار خاص بوده، نمیتوان از ابزارهای زبانهای دیگر برای این کار بهره گرفت. امّا اگر بخواهیم ابزارها را فهرست کنیم، دقیقاً به تعداد کاربردهای زبانشناختی نیاز به ابزارهای تحلیل وجود دارد؛ مانند خطایاب املایی، خطایاب نحوی، تصریفگر، تجزیهگر نحو، معنا و گفتمان، استخراج واژههای مرکب، استخراج اسامی خاص، شناخت هممرجعهای زبانی و مترجم هوشمند بینزبانی.
آیا دادگان موجود زبان فارسی برای این کار کفایت میکند؟
به نظر من با توجه به کاربردهایی که عرض کردم آن قدر وضعیت دادگانی ما ضعیف است که نمیشود حتی نام دادگان را برای آن برگزید. از زمانی که جناب آقای دکتر عاصی پیکرهشان را عرضه کردند، تاکنون پیکرههایی مانند پیکره مرکز علائم هوشمند در سطح صرف و برچسب اجزای سخن (با پژوهش دکتر بیجنخان)، پیکره فارسدات (دکتر بیجنخان)، پیکره دو زبانه فارسی- انگلیسی (دکتر موسوی میانگاه)، پیکره دوزبانه فارسی- انگلیسی محاورهای از زیرنویس فیلمهای هالیوودی دانشگاه تهران (دکتر فیلی) و پیکره دوزبانه دبیرخانه شورای عالی اطلاعرسانی (در حال انجام)، پیکره ردههای متنی همشهری (دانشگاه تهران) و پیکره بازیابی اطلاعات داتآیآر (محک) نیز ارائه شدهاند که از نظر من هنوز بسیار فاصله داریم از آن چیزی که باید باشد. ما هماکنون به این مسئله میبالیم که اولین پیکره نحوی وابستگی زبان فارسی را ارائه کردهایم، در حالی که چنین پیکرهای حدود 8 سال پیش در زبانهای دیگر مانند سوئدی، هلندی، دانمارکی، آلمانی، عربی، ترکی و ژاپنی وجود داشته است. البته از این نظر فاصلهمان بسیار کم شده است؛ چرا که مثلاً فاصله اولین پیکره در سطح صرف (براون) در زبان انگلیسی با اولین پیکره زبان فارسی نزدیک به 40 سال بوده است. هماکنون در کشورهای دیگر مانند فرانسه، سوئد و آلمان، اطلاع دارم که پروژههای دادگانی زبان فارسی تعریف میشود. این که آنها چه هدفی از تعریف این پروژهها دارند، جای بحث دارد اما نکته حائز اهمیت این است که آنها به اهمیت چنین پروژههایی پی بردهاند در حالی که در جامعه علمی داخل این اتفاق آن طور که باید نیفتاده است.
برای تهیه دادگان نحوی چه باید کرد؟
جواب سادهاش این است که باید با انتخاب رویکرد زبانی مناسب و کارا برای زبان فارسی، سریعاً اقدام به برچسبزنی کرد. در سالهای قبل، پیکرهها با وسواس بسیار زیادی جمعآوری میشد ولی یکی دو سال است که دانشگاههای سطح اول دنیا به این نتیجه رسیدهاند که حجم زیاد پیکره اهمیت بیشتری دارد. مثلاً اگر شما با وسواس، خطای حاشیهنویسی دادگان را به 1 درصد برسانید، ممکن است به اندازه دادگانی با چند برابر حجم و با حدود 5 درصد خطا، کارا نباشد. چون روشهای هوشمند عمدتاً بر بنیانهای آماری بنا شدهاند و در روشهای آماری وجود خدشه و خطا در داده همیشه در نظر گرفته میشود. ما هم به این نتیجه رسیدهایم که نخست با شناخت یک رویکرد بهینه، پس از انجام مطالعات و تشکیل کارگروههای مباحثهای این کار را به نحو احسن انجام دهیم. این پروژه از تابستان سال 1389 شروع شده است و ممکن است با ادامه یافتن کار در سطح معنا تا دو سال دیگر نیز ادامه یابد.
هدف اصلی این پروژه که در مرکز تحقیقات کامپیوتری علوم اسلامی انجام میشود چیست؟
به دلیل اشتراکهای مدیریتی مرکز تحقیقات کامپیوتری علوم اسلامی (نور) با دبیرخانه شورای عالی اطلاعرسانی، این پروژه در معاونت تهرانِ نور در حال انجام است ولی بانی این پروژه دبیرخانه شورای عالی اطلاعرسانی است. هدف اصلی این پروژه ترویج زبان فارسی در محیطهای فناوری با در نظر گرفتن اولویتهای پردازشی و آموزشی است. فراهم کردن یک زیرساخت مناسب دادگانی برای پژوهشگران هدفی است که ما به دنبال آن هستیم و طیف مخاطبانی که تاکنون داشتهایم نشاندهنده این مسئله است که در حال نزدیک شدن به این هدف هستیم.
در حال حاضر وضعیت این پروژه چگونه است ؟ آیا در این زمینه موفق بوده است؟
در آغاز ما با انتخاب دستور وابستگی و مفهوم ظرفیت واژگانی، اقدام به مطالعه در مورد نحوه ساخت یک پیکره درختی نحوی کردیم. در همین حین به صورت موازی، بر اساس نظرات کتاب «ظرفیت فعل» دکتر امید طبیبزاده، اقدام به جمعآوری دادگان فرهنگ ظرفیت فعل در زبان فارسی کردیم. این مجموعه و همین طور پیکره وابستگی در وبگاه به صورت رایگان قرار داده شده است. پس از آن جملاتی را به صورت تصادفی از وب جمعآوری کرده، برچسبزنی کردیم. هماکنون با در نظر گرفتن فعلهایی که در پیکره کنونی دیده نشدهاند، جملات نمونهای را از وب به صورت تصادفی جمعآوری و پالایش میکنیم که دارای فعلهای مذکور باشند. بدینترتیب با توجه به مرکزیت فعل در دستور وابستگی، پیکرهای خواهیم داشت که در آن عمده فعلهای زبان فارسی حضور داشته باشند. هماکنون، در این پروژه سه کار به صورت همزمان انجام میشود. برچسبزنی جملات جدید در سطح صرف و نحو، ویرایش جملات برچسبزنی شده و پالایش آن از خطاها و مطالعه در مورد نحوه ارتقای این پیکره از سطح نحو به معنا. امید است که بتوانیم در مدتزمان کوتاهی پیکره معنایی زبان فارسی را نیز ارائه دهیم. تاکنون نیز از دانشگاههای مختلف در کشورهای ایران، آمریکا، کانادا، آلمان، چک، تاجیکستان، سوئد، بلغارستان، فرانسه، قطر، پاکستان، هند، انگلستان، اتریش و هلند درخواست داده داشتهایم. عمده این افراد پژوهشگران پردازش زبان طبیعی یا زبانشناسان متخصص در زمینه زبان فارسی بودهاند. برخی از افراد زبانشناس اصالتاً ایرانی و برخی دیگر آشنا به زبان فارسی بودهاند.
در کنار این مسائل، طرح نسخه تحت وب فرهنگ ظرفیت با امکانات جستوجوی پیشرفته، امکان تحلیل زبانی، خطایابی نحوی و املایی برای اهداف آموزشی از اسفندماه آغاز خواهد شد. هدف از این نسخه، ارتقای آموزش زبان فارسی در سطح بینالمللی است. با توجه به طیف وسیع مخاطبان به این نتیجه رسیدهایم که این نرمافزار تحت وب، میتواند به عنوان یک ابزار آموزشی زبان در کلاسهای درس مورد استفاده قرار گیرد.
و در پایان
فکر میکنم ما آن طور که از جامعه پردازشی و زبانی خارج از کشور بازخورد داشتهایم، از داخل بازخورد زیادی ندیدیم. استادانی مانند دکتر طبیبزاده با تبادل اطلاعات و نظرهایشان با گروه ما بسیار از این نظر به ما کمک کردند ولی به نظر من با توجه به جوان بودن اعضای پژوهشی این پروژه بیش از اینها نیاز به تبادل نظر وجود دارد و از همین طریق از همه علاقهمندان به زبانشناسی، زبان فارسی و یا مسائل پردازشی زبان دعوت میکنم با گروه ما در ارتباط باشند و با نظرهایشان به ارتقای کار ما کمک کنند. امیدوارم زحمات دوستان در گروه دادگان برای جامعه علمی داخل و خارج مفید واقع شود.