در دنیای امروز، دادههای زیادی وجود دارند که شامل الگوهای مورد علاقه زیادی هستند که گاهی بهطور منظم در دادهها رخ میدهند. یافتن چنین الگوهایی میتواند به شناسایی دادههای پرت، یعنی دادههای غیر منتظره که بهصورت پراکنده رخ میدهند، کمک کند. هرچه دادههای بیشتری تولید شوند، احتمال یافتن الگوهای جدیدتر و دادههای پرت افزایش مییابد، که با حضور حجم بسیار بالای دادهها و تولید سریع آنها، استفاده از روشهای پردازش کلانداده میتواند در این خصوص مفید باشد. تولید دادههای بیشتر میتواند منجربه ایجاد جریانی از دادهها شود که بهصورت بیوقفه، فوری و متوالی پدیدار میشوند و باید مورد بهرهبرداری قرار گیرند که امکان ذخیرهسازی این دادهها عملاً مقدور نمیباشد. در برخی حوزهها جریانهای داده دیده میشوند، بهطور مثال میتوان به شبکههای حسگر، مدیریت ترافیک و شبکههای اجتماعی اشاره نمود. دادههای موجود در جریان دادهها میتوانند حاوی دانش مفیدی باشند که باید پردازشهای گوناگونی را برای کشف این دانش انجام داد که یکی از پردازشها، خوشهبندی جریان داده نام دارد. این پردازش از مباحث موجود در دادهکاوی کلانداده میباشد. برای کشف دانش نهفته در کلانداده با استفاده از روشهای دادهکاوی، حضور مرحلهای به نام پیش پردازش ضروری است. در مرحله پیشپردازش، دادهها برای انجام دادهکاوی آماده میشوند. بهطور مثال در این مرحله دادههای پرت یا دادههای بدون مقدار حذف یا اصلاح میشوند. از اینرو مرحله پیشپردازش مرحله بسیار مهمی میباشد که در آن باید تکلیف دادههای پرت و یا سایر ناهنجاریهای موجود در دادهها مشخص شوند. بنابراین، وجود تکنیکهای پیشپردازش برای کسب دانش مفید از همهی دادههای تولیدشده ضروری است. هدف استفاده از این تکنیکها کاهش پیچیدگیهای موجود در دادههای دنیای واقعی میباشد، بهطوری که کاهش این پیچیدگی میتواند در مؤثر بودن روشهای دادهکاوی در استخراج الگوها نقش مهمی را ایفا کند و فرایند یادگیری را سریعتر و دقیقتر انجام دهد و ساختار دادههای خام را برای الگوریتم دادهکاوی قابل فهمتر نماید. در دادهکاوی روشهای متفاوتی وجود دارد که یکی از آنها خوشهبندی میباشد. خوشهبندی به عنوان یک تکنیک در یادگیری ماشین تلاش میکند تا دادهها را با استفاده از شناختی که دارد در گروههای متفاوتی قرار دهد. بهطور کلی خوشهبندی جریان داده، تقسیم دادهها به گروههای همگن است به نحوی که شرط شباهت حداکثری مشاهدات درون هر گروه و شباهت حداقلی بین اعضای گروههای مختلف برآورده شود. از این نوع پردازش نیز میتوان برای کشف دادههای پرت استفاده نمود. در روش پیشنهادی، از الگوریتم STARE استفاده شده است. در این پژوهش، سعی شده است که الگوریتم STARE بهبود یابد. استفاده از خوشه بندی DenStreamبه عنوان پیشپردازش میتواند دقت الگوریتم را بهبود ببخشد.