تشخیص داده های پرت در جریان داده با استفاده از خوشه بندی

مشخصات پژوهش

عنوان	تشخیص داده‌های پرت در جریان‌داده با استفاده از خوشه‌بندی
نوع پژوهش	پایان نامه
کلیدواژه‌ها	داده‌کاوی، خوشه‌بندی، جریان داده، تشخیص داده‌های پرت، تشخیص ناهنجاری
سال	1403
پژوهشگران	مائده مطلبی(دانشجو)، مرتضی یوسف صنعتی(استاد راهنما)

چکیده

در دنیای امروز، داده‌‌های زیادی وجود دارند که شامل الگوهای مورد علاقه زیادی هستند که گاهی به‌طور منظم در داده‌ها رخ می‌دهند. یافتن چنین الگوهایی می‌تواند به شناسایی داده‌های پرت، یعنی داده‌های غیر منتظره که به‌صورت پراکنده رخ می‌دهند، کمک کند. هرچه داده‌های بیشتری تولید شوند، احتمال یافتن الگوهای جدیدتر و داده‌های پرت افزایش می‌یابد، که با حضور حجم بسیار بالای داده‌ها و تولید سریع آن‌ها، استفاده از روش‌های پردازش کلان‌داده می‌تواند در این خصوص مفید باشد. تولید داده‌های بیشتر می‌تواند منجربه ایجاد جریانی از داده‌ها شود که به‌صورت بی‌وقفه، فوری و متوالی پدیدار می‌شوند و باید مورد بهره‌برداری قرار گیرند که امکان ذخیره‌سازی این داده‌ها عملاً مقدور نمی‌باشد. در برخی حوزه‌ها جریان‌های داده دیده می‌شوند، به‌طور مثال می‌توان به شبکه‌های حسگر، مدیریت ترافیک و شبکه‌های اجتماعی اشاره نمود. داده‌های موجود در جریان داده‌ها می‌توانند حاوی دانش مفیدی باشند که باید پردازش‌های گوناگونی را برای کشف این دانش انجام داد که یکی از پردازش‌ها، خوشه‌بندی جریان داده نام دارد. این پردازش از مباحث موجود در داده‌کاوی کلان‌داده می‌باشد. برای کشف دانش نهفته در کلان‌داده با استفاده از روش‌های داده‌کاوی، حضور مرحله‌ای به نام پیش پردازش ضروری است. در مرحله پیش‌پردازش، داده‌ها برای انجام داده‌کاوی آماده می‌شوند. به‌طور مثال در این مرحله داده‌های پرت یا داده‌های بدون مقدار حذف یا اصلاح می‌شوند. از این‌رو مرحله پیش‌پردازش مرحله بسیار مهمی می‌باشد که در آن باید تکلیف داده‌های پرت و یا سایر ناهنجاری‌های موجود در داده‌ها مشخص شوند. بنابراین، وجود تکنیک‌های پیش‌پردازش برای کسب دانش مفید از همه‌ی داده‌های تولیدشده ضروری است. هدف استفاده از این تکنیک‌ها کاهش پیچیدگی‌های موجود در داده‌های دنیای واقعی می‌باشد، به‌طوری که کاهش این پیچیدگی می‌تواند در مؤثر بودن روش‌های داده‌کاوی در استخراج الگو‌ها نقش مهمی را ایفا کند و فرایند یادگیری را سریع‌تر و دقیق‌تر انجام دهد و ساختار داده‌های خام را برای الگوریتم داده‌کاوی قابل فهم‌تر نماید. در داده‌کاوی روش‌های متفاوتی وجود دارد که یکی از آن‌ها خوشه‌بندی می‌باشد. خوشه‌بندی به عنوان یک تکنیک در یادگیری ماشین تلاش می‌کند تا داده‌ها را با استفاده از شناختی که دارد در گروه‌های متفاوتی قرار دهد. به‌طور کلی خوشه‌بندی جریان داده، تقسیم داده‌ها به گروه‌های همگن است به نحوی که شرط شباهت حداکثری مشاهدات درون هر گروه و شباهت حداقلی بین اعضای گروه‌های مختلف برآورده شود. از این نوع پردازش نیز می‌توان برای کشف داده‌های پرت استفاده نمود. در روش پیشنهادی، از الگوریتم STARE استفاده شده است. در این پژوهش، سعی شده است که الگوریتم STARE بهبود یابد. استفاده از خوشه بندی DenStreamبه عنوان پیش‌پردازش می‌تواند دقت الگوریتم را بهبود ببخشد.

مرتضی یوسف صنعتی

مشخصات پژوهش

چکیده