بازیابی تصویر مبتنی بر محتوا استفاده از روش های بینایی ماشین برای بازیابی تصاویری از یک مجموعه است که به تصویر پرس وجو شبیه باشند. چالش اصلی این سیستم ها کاهش شکاف معنایی بین ویژگی های سطح پایین مستخرج از پیکسل و قطعه تصویر و مفاهیم سطح بالای موجود در آن است. یکی از روش های کاهش این فاصله استفاده از ویژگی های سطح بالای مستخرج از نواحی و اشیا برای بازیابی است. از طرفی ویژگی های سطح پایین نیز تمایز خوبی بین خود تصاویر اعمال می کنند. بر این اساس انتظار می رود استفاده از هر دو دسته ویژگی به نتایج بهتری منجر شود. در این پژوهش بازیابی تصویر در چهار سطح پیکسل، ناحیه، شیء و مفهوم انجام شده است و از همجوشی نتایج این سطوح به منظور کاهش شکاف معنایی استفاده شده است. در سطح پیکسل، از ویژگی های SIFT و LBP استفاده شده است. در سطح ناحیه، ابتدا تصویر به چند ناحیه افراز و سپس ویژگی های رنگ و بافت با استفاده از توصیفگر Hue و فیلتر گابور از هر یک از نواحی تصویر استخراج شده است. در سطح شیء از شبکه عصبی کانولوشنی AlexNet برای بازشناسی اشیاء و صحنه های درون تصویر و در سطح مفهوم از شبکه عصبی Word2vec برای سنجش شباهت معنایی تصاویر استفاده شده است. نتایج بازیابی روی دو پایگاه داده Wang و GHIM نشان دهنده بهبود دقت و فراخوانی در بازیابی تصویر است.