سامانه پژوهشی دانشگاه بوعلی سینا | خوشه بندی اسناد، مبتنی بر آنتولوژی و رویکرد فازی

عنوان	خوشه بندی اسناد، مبتنی بر آنتولوژی و رویکرد فازی
نوع پژوهش	مقاله چاپ‌شده در مجلات علمی
کلیدواژه‌ها	خوشه بندی اسناد، گراف آنتولوژی، معیار شباهت، سیستم اسنتاج فازی
چکیده	داده کاوی که به عنوان استخراج دانش از پایگاه داده ها نیز شناخته می شود، روالی برای استخراج دانش ناشناخته از داده است. کاوش اسناد بر اساس روشهای داده کاوی به استخراج اطلاعات و دانش از اسناد میپردازد. خوشه بندی اسناد یکی از مهمترین روشهای کاوش اسناد است که دسته بندی بدون سرپرست اسناد به گروه های مختلف می باشد. سیستم های رایج بازیابی اطلاعات و خوشهبندی اسناد بر کلمات کلیدی استوار میباشند. با توجه به اینکه کلمات کلیدی مختلف میتوانند برای توصیف یک مفهوم استفاده شوند، این سیستمها میتوانند نتایج نادرست و ناقصی را ایجاد نمایند. همچنین روابط معنایی ممکن است بین کلمات موجود باشد که شناسایی آنها نیاز به استخراج دانش دامنه مورد نظر دارد. مهمترین گامها در خوشهبندی اسناد نحوهی نمایش اسناد و معیار اندازهگیری شباهت بین آنها است. این تحقیق بر بهبود کارایی خوشهبندی اسناد تمرکز دارد. الگوریتم خوشهبندی اسناد در سه گام پیشنهاد شده است: نمایش اسناد، اندازهگیری شباهت بین اسناد، سیستم استنتاج فازی به منظور اندازه گیری شباهت نهایی بین اسناد. در نهایت پس از انجام این سه گام، با استفاده از الگوریتم خوشه بندی پایین به بالا خوشه بندی اسناد صورت میپذیرد. در گام اول، اسناد بر اساس دانش دامنه به صورت یک گراف آنتولوژی نمایش داده می شوند. این روش بر خلاف روش مبتنی بر کلمات کلیدی، بر مفاهیم دامنه استوار میباشد و یک سند را بر اساس مفاهیم موجود در آن، به صورت زیرگرافی از آنتولوژی دامنه نمایش میدهد. مفاهیم استخراج شده گرههای گراف را تشکیل میدهند. برای هر گره با توجه به فرکانس مفهوم، وزن محاسبه میگردد. روابط موجود بین مفاهیم سند، یالهای گراف و میزان این ارتباط اوزان یالها را مشخص مینماید. در گام دوم برای هر سند بر اساس نمایش گرافی استخراج شده از مرحلهی اول، مفاهیم کلی و جزئی و یالهای اصلی مشخص میگردند. شباهت بین هر جفت از اسناد در سه مقدار و بر اساس این سه عامل محاسبه میشود. در گام سوم سیستم استنتاج فازی با سه ورودی و یک خروجی طراحی شده است. ورودیها مفاهیم کلی، مفاهیم جزئی و یالهای اصلی میباشند و خروجی میزان شباهت بین دو سند است. مجموعهای از قوانین فازی برای موتور استنتاج فازی در نظر گرفته شده است که بر اساس سه شباهت ورودی مقدار شباهت نهایی را تخمین میزند. در نهایت بر اساس ماتریس شباهت اسناد، الگوریتم خو
پژوهشگران	حسن ختن لو (نفر اول)، مریم امیری (نفر دوم)

مشخصات پژوهش