بازیابی تصویر مبتنی بر محتوا استفاده از روش های بینایی ماشین برای بازیابی تصاویری از یک مجموعه است که ازنظر محتوا به تصویر پرسش شبیه باشند. چالش اصلی سیستم های بازیابی تصویر کاهش شکاف معنایی بین ویژگی های دیداری سطح پایین تصویر و مفاهیم سطح بالای موجود در آن است. دلیل اصلی شکاف معنایی این است که پیکسل ها و تکه های تصویر در بیشتر موارد مفاهیم معنایی کمی را با خود حمل می کنند. یکی از روش های کاهش این فاصله استخراج ویژگی های سطح بالا در بازیابی تصویر است. از طرفی برای تفکیک تصاویری از دو گروه مختلف که به وسیله ویژگی های سطح بالا قابل تفکیک نیستند، به ویژگی های سطح پایین نیز احتیاج داریم. در این پژوهش ویژگی های دیداری در چهار سطح پیکسل، ناحیه، شیء و مفهوم استخراج شده و تصاویر در این چهار سطح با استفاده از مدل کیسه ای از واژگان نمایه سازی می شوند. سپس از همجوشی اطلاعات این چهار سطح به منظور کاهش شکاف معنایی و بهبود دقت و فراخوانی بازیابی استفاده می شود. در سطح پیکسل ویژگی های SIFT، فیلتر گابور و گشتاورهای رنگ از تصاویر استخراج می شود. در سطح ناحیه ابتدا تصویر با استفاده از الگوریتم Jseg به چند ناحیه افراز شده و سپس ویژگی های رنگ و بافت با استفاده از توصیفگر Hue و LBP از هر یک از نواحی تصویر استخراج می شود. در سطح شیء از شبکه عصبی کانولوشنی AlexNet برای بازشناسی اشیاء و صحنه های درون تصویر استفاده می شود و در سطح مفهوم از بازنمایی برداری واژگان متناظر با این اشیاء و صحنه ها، برای سنجش شباهت معنایی تصاویر استفاده می شود. بازنمایی برداری واژگان با استفاده از شبکه عصبی Word2vec انجام می شود. برای ساختن یک سیستم بازیابی تصویر مبتنی بر محتوای چندسطحی نیز از دو راهکار همجوشی در سطح تصمیم و همجوشی ویژگی ها استفاده شده است. نتایج این مطالعه امکان سنجی روش پیشنهادی و بهبود عملکرد کلی سیستم بازیابی را در مجموعه تصاویر مختلف تائید می کند.