سامانه پژوهشی دانشگاه بوعلی سینا | تشخیص نقل به مضمون با استفاده از تکنیک های یادگیری عمیق

عنوان	تشخیص نقل به مضمون با استفاده از تکنیک های یادگیری عمیق
نوع پژوهش	پایان نامه
کلیدواژه‌ها	تشخیص نقل به مضمون، شباهت جملات کوتاه، پنهان سازی جملات، مقایسه ویژگی های متنی. شبکه های LSTM.
چکیده	چکیده: تشخیص نقل به مضمون یکی از مسائل مهم در حوزه پردازش زبان های طبیعی است. نقل به مضمون به جملات یا عباراتی اشاره می کند که معنی و مفهوم یکسانی را به خواننده منتقل می کنند اما ساختار و کلمات آن ها با هم متفاوت است. این مسئله کاربردهای فراوانی در حوزه پردازش زبان های طبیعی دارد. ازجمله این کاربردها می توان به استفاده آن در خلاصه سازی متن، ترجمه ماشینی، سیستم های پرسش و پاسخ، تشخیص سرقت ادبی و موتور های جستجو اشاره کرد. در این پژوهش، ابتدا مسئله با چندین روش مرسوم مانند وزن دهی TF-IDF و استفاده از طبقه بند هایی همچون ماشین بردار پشتیبان، حل و ارزیابی شده است. سپس با استفاده از نتایج بدست آمده از این روش ها، یک مدل جدید برای تشخیص نقل به مضمون ارائه شده است. مدل پیشنهادی را می توان به دو بخش تقسیم نمود. در بخش اول که مسئله با تکنیک های یادگیری عمیق حل می-شود، جملات پس از عبور از مرحله پیش پردازش، با استفاده از تکنیک پنهان سازی GloVe به بردار هایی عددی تبدیل می-شوند. خروجی این لایه پنهان سازی سپس به یک شبکه Bi-LSTM برای بیان کردن کل جمله داده می شود. پس از اتمام آموزش مدل، خروجی این شبکه به عنوان ویژگی های استخراج شده برای هر جمله در نظر گرفته می شوند. در بخش دوم، یک سری ویژگی دستی برای بیان کردن میزان شباهت معنایی بین دو جمله معرفی می شوند. از میان این ویژگی ها، تعدادی از آن ها جدید بوده و برای اولین بار در این پژوهش معرفی شده اند. مدل پیشنهادی از ترکیب ویژگی های بدست آمده در این دو بخش حاصل می شود. دو مجموعه داده با نام های MSRP و Quora برای ارزیابی مدل پیشنهادی در نظر گرفته شده اند. نتایج مدل برای مجموعه داده MSRP نشان می دهد که این مدل تقریبا از تمام پژوهش های انجام شده، کارایی بهتری از نظر صحت و f-measure را کسب می کند. نتایج ارزیابی مدل برای مجموعه داده Quora نیز کارایی قابل قبول و قابل مقایسه ای با سایر پژوهش های انجام شده روی این مجموعه داده را نشان می دهد. به طوری که مدل پیشنهادی جزء 24 درصد برتر روش ها از میان بیش از 3000 تیم در سایت Kaggle است. نتایج ارزیابی همچنین نشان می دهد که مدل پیشنهادی برای مجموعه داده-هایی با تعداد نمونه های کم، کارایی بهتری در مقایسه با سایر مدل های جدید دارد.
پژوهشگران	میرحسین دزفولیان (استاد راهنما)، حسن شاه محمدی (دانشجو)، محرم منصوری زاده (استاد مشاور)

مشخصات پژوهش