در قرن حاضر شاهد تولید روزافزون فیلم های سینمایی مختلف در دسته بندی و ژانرهای متفاوت هستیم . بسیاری از این تولیدات خارج از ارزش هایی است که متناسب با مقتضیات سنی یک کودک یا نوجوان باشد. بسیاری از والدین نگران فرزندان خود در مواجه با این تولیدات هستند. بنابراین، طبقه بندی صحیح فیلم میتواند راهنمای مناسبی برای والدین باشد. در حال حاضر سیستم های موجود دسته بندی و پیشنهادگر فیلم، عوامل کمی و ... را در نظر میگیرند توجه کمتری به محتوای فیلم دارند. هدف از این تحقیق استفاده از روش های بازیابی اطلاعات برای شناسایی موضوع، ژانر و طبقه بندی سنی فیلم ها براساس متن آنها است. به گونه ای که بتوان از این دانش در توصیه فیلم، با توجه به محتوای فیلم و رده سنی کاربر بهره گرفت. در این پژوهش از روش مدل سازی موضوعی LDA استفاده شده است که با استفاده از کشف روابط پنهان بین واژگان، موضوعات اسناد و درصد مشارکت هر موضوع در هر سند را مشخص میکند. از LDA عالوه بر خوشه بندی اسناد، برای استخراج ویژگی های اسناد استفاده شده است، که منجر به کاهش ابعاد داده ها نسبت به روش های دیگر نمایش کلمات word embedding میشود. کاهش ابعاد داده، موجب بهبود عملکرد مدل های یادگیری ماشین میشود. نتایج پیاده سازی نشان میدهد که روش پیشنهادی با دقت %93 توانایی تشخیص رده سنی کاربر دارد و با دقت %89 در تشخیص ژانر موفق عمل میکند.