سلامتی همواره یکی از دغدغههای انسان است و استفاده از تکنولوژیهای تصویربرداری پزشکی به تحلیل و تشخیص بیماریها کمک شایانی میکند. یادگیری عمیق به عنوان یک ابزار قدرتمند در پردازش اطلاعات، نقش مهمی را در بهبود سلامت ایفا میکند. برخی از روشهای یادگیری عمیق میتوانند برای استخراج اطلاعات از تصاویر یا متون استفاده شوند. در این پژوهش، یک مدل پاسخگویی به سوالات بصری پزشکی مبتنی بر یادگیری عمیق ارائه شده که بهطور خاص برای تحلیل تصاویر CT کبد طراحی شده است. این مدل با بهرهگیری از معماری شبکه عصبی عمیق ResNet152 که از پیشآموزش دیده شده، قادر است ویژگیهای پیچیده را از تصاویر استخراج کند. علاوه بر این، برای تبدیل کلمات متن به بردار از ترانسفورمر BERT استفاده شده که ویژگیهای معنایی و موقعیتی کلمات را در بر میگیرد. ویژگیهای استخراجشده از تصاویر و متون در یک فضای مشترک ادغام میشوند و از طریق لایههای ترانسفورمر پردازش میشوند. هر لایه ترانسفورمر شاممل مکانیزم توجه چندوجهی است که به مدل کمک میکند تا اطلاعات ترکیبی از تصویر و متن را بهتر درک کند. در نهایت، بردار نهایی به یک لایه کاملاً متصل وارد میشود که به عنوان طبقهبند نهایی برای تشخیص و پاسخ به سوالات مرتبط با کبد عمل میکند. این مدل میتواند به پزشکان و بیماران در تشخیص و درمان بیماریهای کبدی کمک کرده و به بهبود کیفیت زندگی بیماران منجر شود. این روش روی مجموعه داده Liver CT Annotation Image CLEF 2015 آموزش و ارزیابی شده و نتایج قابل قبولی بهدست آمده است. بنابراین استفاده از این مدل دقت تشخیص را افزایش میدهد و در نهایت به ارتقاء سلامت بیماران میانجامد.