توصیف تصویر یک زمینه تحقیقاتی بین رشته ای در بینایی ماشین و پردازش زبان طبیعی است. بسیاری از روشهای پیشنهاد شـده برای تولید توصیف تصویر از چارچوب رمزگذار - رمزگشا پیرویکردهاند. به این ترتیـب هـر کلمـه بـر اسـاس ویژگیهـای تصـویر و کلمات تولید شده قبلی تولید میشود. اخیراً سازوکار توجه،که میتواند با ایجاد نقشه فضایی، مناطق مرتبط تصویر بـا هـر کلمـه را برجسته کند، به طورگسترده در تحقیقات استفاده شده است. در این مقاله، مـا یـک روش جدیـد را پیشـنهاد کـردهایمکـه چـارچوب رمزگذار-رمزگشا را با سازوکار توجه و سازوکار توجه بر توجه ادغامکرده است. بخـش رمزگـذار مـدل شـامل چنـد بخـش ResNet، تصـویر هـایکلـی ویژگی استخراج برای ResNet از .است Attention on Attention و Multi Head Attention ،Attention-LSTM استفاده شده است. ایهی LSTM-Languageمسئولیت رمزگشایی را بـر عهـده دارد. سـازوکار توجـه از شـواهد محلـی بـرای افـزایش نمایش ویژگیها و استدلال در تولید توصیفات تصویری بهره برده و سازوکار توجه بر توجه میتواند روابط اشیای داخل تصـاویر را بهخوبی درک کند. این روش پیشنهادی توانسته است بر روی تصاویر مجموعههای داده k8Flickr و MSCOCOتوصیفهای بهتری را نسبت به روشهای موفق موجود ارائه دهد. همچنین بر اساس معیارهای ارزیابی METEOR، ROUGEعملکـرد توصـیف تصـویر را بهبود داده است.