1404/02/01
محرم منصوری زاده

محرم منصوری زاده

مرتبه علمی: دانشیار
ارکید:
تحصیلات: دکترای تخصصی
اسکاپوس: 25923564500
دانشکده: دانشکده فنی و مهندسی
نشانی: همدان، دانشگاه بوعلی سینا، دانشکده مهندسی، گروه مهندسی کامپیوتر
تلفن: 08131406381

مشخصات پژوهش

عنوان
پاسخ به پرسش های مطرح شده از تصاویر به کمک تکنیک های یادگیری عمیق
نوع پژوهش
پایان نامه
کلیدواژه‌ها
پاسخ گویی به پرسش های مطرح شده از تصاویر، بینایی ماشین، پردازش زبان های طبیعی، شبکه های عصبی، یادگیری عمیق، تعبیه سازی متن، شبکه های پیچشی عمیق، مکانیزم توجه
سال 1397
پژوهشگران مجید رفیعی(دانشجو)، میرحسین دزفولیان(استاد راهنما)، محرم منصوری زاده(استاد مشاور)

چکیده

پاسخ گویی به پرسش های مطرح شده از تصاویر (VQA)، یک مسئله ی تحقیقاتی میان رشته ای در هوش مصنوعی است. این مسئله علاوه بر بینایی ماشین، حوزه های دیگری همانند پردازش زبان های طبیعی و نمایش دانش و استدلال را نیز پوشش می دهد. از آن جا که VQA، محیطی عملیاتی برای سنجش درک عمیق تصاویر به حساب می آید، طی سالیان گذشته با اقبال پژوهشگران حوزه ی هوش مصنوعی مواجه شد است. پژوهش پیش رو، به منظور ارائه ی راهکاری برای حل مسئله ی VQA طرح ریزی شده است. با آن که در چند سال گذشته، تمامی روش های سرآمد VQA از معماری های نسبتاً پیچیده ای استفاده کرده اند، اما پژوهش های اخیر نشان می دهد، مدل های ساده تر نیز به شرط پیاده سازی مناسب می توانند عملکردی در حد مدل های پیچیده ارائه نمایند. بر این اساس، در پژوهش جاری تلاش شده است تا مدلی ساده، سریع و قابل فهم برای حل مسئله ی VQA طراحی گردد که عملکرد قابل قبولی نیز داشته باشد. سنگ بنای روش پیشنهادی، بر پایه ی روش Anderson و همکاران ] [ پی ریزی شده است. مهم ترین مزیت این روش، ارائه ی سازوکاری تحت عنوان مکانیزم توجه پایین به بالا برای استخراج ویژگی های تصویر است. روش انتخاب شده با اتکا بر قابلیت فوق العاده ی خود در تشخیص اشیاء موفق به کسب رتبه نخست چالش VQA 2017 شده است. روش پیشنهادی این پژوهش، بر مبنای شبکه های عصبی عمیق بنا نهاده شده و از رویکرد مرسوم تعبیه سازی توأم ویژگی های تصویر و پرسش بهره می برد. به صورت خلاصه، مدل پیشنهادی از پنج بخش اصلی تشکیل گردیده است:استخراج ویژگی های تصویر، تعبیه سازی پرسش، مکانیزم توجه، ادغام ویژگی ها و در نهایت تولید پاسخ. روش پیشنهادی پس از پیاده سازی به کمک چارچوب یادگیری عمیق Pytorch، بر روی دیتاست VQA v2.0 ] [ آموزش دیده است. در مسایل یادگیری عمیق، بخش مهمی از هر پژوهش به تنظیم پارامتر های شبکه از طریق اعتبارسنجی و آزمایش های تجربی اختصاص می یابد از این رو، در این پژوهش نیز به قصد دستیابی به مدلی بهینه، آزمایش های فراوانی در جهت انتخاب بهترین معماری و بهینه ترین hyperparameterها صورت پذیرفته است. پس از انجام این فرآیند بهینه سازی، درنهایت، مدلی به دست آمده است که با کسب 65.19 درصد از امتیاز های بخش test-dev دیتاست، در حدود 2 درصد نسبت به روش پایه بهبود داشته است. باوجود این افزایش، اما نتایج نهایی مدل پیشنهادی نسبت