مشخصات پژوهش

صفحه نخست /توسعه معماری چندمنظوره متن ...
عنوان توسعه معماری چندمنظوره متن کاوی با استفاده از ساختارهای مبتنی بر آنتولوژی، پایگاه دانش و روش های یادگیری هوشمند
نوع پژوهش پایان نامه
کلیدواژه‌ها متن کاوی، تجزیه و تحلیل متن، آنتولوژی، پایگاه دانش، دانش ساخت یافته، ترکیب خبرگان، یادگیری ماشین، مدل سازی معنایی، شبکه های معنایی، غنی سازی محتوا، شباهت معنایی، فیلتر محتوایی و مدیریت اطلاعات، توصیه گر هشتگ، شاخص گذاری معنایی
چکیده متن کاوی به مجموعه ای از مهم ترین تکنیک هایی گفته می شود که وظیفه تحلیل و پردازش داده های غیر ساخت یافته و نیمه ساخت یافته را بر عهده دارند. داده های غیر ساخت یافته و نیمه ساخت یافته هم اکنون چیزی حدود 80 درصد از داده های موجود در سطح جهان را تشکیل می دهند. امروزه درصد بسیار زیادی از شرکت های تجاری، صنایع و مؤسسات تحقیقاتی، حجم عظیمی از داده های متنی را جمع آوری و ذخیره سازی می کنند. با افزایش روزافزون حجم اطلاعات جمع آوری و ذخیره سازی شده، نیاز به پیاده سازی تکنیک هایی که بتوانند داده ها را تحلیل، دانش موجود در آن ها را استخراج و منابع متنی را جهت به کارگیری در حوزه های مختلف مدل سازی کنند، به شدت احساس می شود. متن کاوی، ابزارها و روش های لازم را برای پردازش، تحلیل، شناسایی و مدل سازی ساختارهای دانش و منابع متنی در اختیار شرکت های تجاری و محققان حوزه پردازش اطلاعات قرار می دهد. در رساله پیشنهادی یک معماری متن کاوی چندمنظوره ارائه شده است. قابلیت های تعبیه شده برای معماری متن کاوی پیشنهادی از طریق یکپارچه سازی دانش ساخت یافته آنتولوژی، پایگاه های دانش ساخت یافته و روش های یادگیری ماشین در مدل پیشنهادی حاصل می شود. اولین قدم در پیاده سازی یک معماری متن کاوی، استخراج ویژگی ها و ساختارهای اطلاعاتی موجود در داده های متنی است. برای چنین کاری یک واحد پیش پردازش معنایی داده های متنی پیاده سازی شده است. وظیفه این واحد استخراج محتوای اطلاعاتی داده های متنی و الگوهای ساخت یافته موجود در آن ها است. یکی از معضلاتی که برخی از سیستم های متن کاوی با آن ها دست وپنجه نرم می کنند، کمبود محتوای اطلاعاتی در اسناد متنی است. در چنین حالتی، روش های مبتنی بر دانش و یادگیری ماشین نیاز است تا محتوای اطلاعاتی مرتبط با منابع متنی شناسایی شوند. در این رساله از یک واحد بدیع جهت غنی سازی محتوای متنی استفاده شده است. در این واحد، دانش ساخت یافته آنتولوژی و پایگاه دانش و ساختارهای اطلاعاتی حاصل از مدل های یادگیری ماشین به طور کامل یکپارچه سازی شده است. در این رساله، دو روش وزن دهی ترکیبی به نام امتیاز برجستگی و امتیاز مشارکت جهت کاهش ابعاد فضای مسئله و شناسایی مفاهیم و ساختارهای اطلاعاتی که مهم ترین نقش را در انتقال زمینه محتوایی اسناد متنی دارند پیاده سازی شده است. قابلیت های تعبیه شده در این روش
پژوهشگران حسن ختن لو (استاد راهنما)، مرتضی جادریان (دانشجو)