عنوان
|
توصیف تصاویر مبتنی بر شبکه عمیق رمزگذار-رمزگشا و سازوکار توجه بر توجه
|
نوع پژوهش
|
مقاله چاپشده در مجلات علمی
|
کلیدواژهها
|
توصیف تصویر، رمزگذار-رمزگشا سازوکار توجه، سازوکار توجه بر توجه، پردازش زبانها طبیعی
|
چکیده
|
توصیف تصویر یک زمینه تحقیقاتی بین رشته ای در بینایی ماشین و پردازش زبان طبیعی است. بسیاری از روشهای پیشنهاد شـده برای تولید توصیف تصویر از چارچوب رمزگذار - رمزگشا پیرویکردهاند. به این ترتیـب هـر کلمـه بـر اسـاس ویژگیهـای تصـویر و کلمات تولید شده قبلی تولید میشود. اخیراً سازوکار توجه،که میتواند با ایجاد نقشه فضایی، مناطق مرتبط تصویر بـا هـر کلمـه را برجسته کند، به طورگسترده در تحقیقات استفاده شده است. در این مقاله، مـا یـک روش جدیـد را پیشـنهاد کـردهایمکـه چـارچوب رمزگذار-رمزگشا را با سازوکار توجه و سازوکار توجه بر توجه ادغامکرده است. بخـش رمزگـذار مـدل شـامل چنـد بخـش ResNet، تصـویر هـایکلـی ویژگی استخراج برای ResNet از .است Attention on Attention و Multi Head Attention ،Attention-LSTM استفاده شده است. ایهی LSTM-Languageمسئولیت رمزگشایی را بـر عهـده دارد. سـازوکار توجـه از شـواهد محلـی بـرای افـزایش نمایش ویژگیها و استدلال در تولید توصیفات تصویری بهره برده و سازوکار توجه بر توجه میتواند روابط اشیای داخل تصـاویر را بهخوبی درک کند. این روش پیشنهادی توانسته است بر روی تصاویر مجموعههای داده k8Flickr و MSCOCOتوصیفهای بهتری را نسبت به روشهای موفق موجود ارائه دهد. همچنین بر اساس معیارهای ارزیابی METEOR، ROUGEعملکـرد توصـیف تصـویر را بهبود داده است.
|
پژوهشگران
|
زهرا فامیل ستاری (نفر اول)، حسن ختن لو (نفر دوم)، الهام علی قارداش (نفر سوم)
|