مشخصات پژوهش

صفحه نخست /بررسی روش ها، مجموعه های داده ...
عنوان بررسی روش ها، مجموعه های داده و معیارهای ارزیابی در حوزه ی پرسش از متون درون تصویر
نوع پژوهش مقاله ارائه شده کنفرانسی
کلیدواژه‌ها پاسخگویی به سوالات دیداری متن (TVQA)، تشخیص کاراکتر نوری (OCR)، سازکار توجه، ویژگیهای پیش آموزش
چکیده - امروزه مسائل مربوط به روابط چند وجهی بین وجه های مختلف داده، بطور مثال بین وجه های تصویر، متن، صوت یکی از حوزه های تحقیقاتی پرکاربرد و پرطرفدار در بین پژوهش گران شده است. یکی از انواع این مسائل، مسئله ی پاسخ گویی به سوالات دیداری است که در آن از دو وجه بصری و متنی در ورودی استفاده می شود. در نوع خاصی از این مسئله که با عنوان پاسخگویی به سوالات دیداری متنی شناخته میشود، هدف، کشف ارتباط بین تصویر بخصوص متون و علائم درون تصویر و سوال متنی پرسیده شده، درباره ی آن تصویر می باشد. پرسش از متون درون تصویر بخصوص اگر شامل عبارات مهم باشد اهمیت پیدا می کند . پژوهش گران توسط مدل های یادگیری عمیق، معماری مبدل ها، مکانیزم توجه توانسته اند به نتایج خوبی دست پیدا کنند. با توجه به انواع تلاش های پژوهش گران در 4 سال اخیر هم اکنون در دوره ای هستیم که می توان مروری برتلاش های آن ها داشته باشیم و آنها را مقایسه کنیم و مسیر رو به پیشرفت را ببینیم و اقدامات انجام شده را بازبینی کنیم. بر اساس اطلاعات بدست آمده این مقاله، اولین مقاله به زبان فارسی است که به جمع آوری و مقایسه مطالعات موجود درباره ی مسئله ی پاسخ گویی به سوالات دیداری متن و چالش های آن می پردازد.
پژوهشگران کبری فرشیدی (نفر اول)، حسن ختن لو (نفر دوم)، محرم منصوری زاده (نفر سوم)، الهام علی قارداش (نفر چهارم)