چکیده: امروزه علم داده کاوی بستری فراهم کرده است تا بتوان با به کارگیری فناوری های جدیدی مانند هوش مصنوعی و یادگیری ماشین، به تجزیه وتحلیل و استخراج مفاهیم نهفته در داده ها پرداخت و از آنها برای کارهای مختلف و مهم استفاده کرد. داده کاوی علم استخراج الگوها، اطلاعات و تحلیل از مجموعه داده های خامی است که در یک سازمان یا در هر مجموعه دیگری تولید شده است. این داده ها با سرعت بالایی تولید می شوند که گاهی اوقات جریانی از داده ها را تشکیل می دهند. جریان داده انتقال مداوم داده ها با سرعت ثابت و بالا است. در برخی موارد سیستم های اطلاعاتی، جریانی از لاگ را تولید می کنند. یک لاگ منبع غنی اطلاعاتی برای تشخیص و پیش بینی خطاها یا رفتارهای ناهنجار موجود در سیستم ها است که شامل تمامی رویداد ها، اتفاقات و خطاها در اجرای یک نرم افزار یا سیستم عامل است. این خطاها را می توان از طریق تجزیه وتحلیل لاگ ها با استفاده از الگوریتم های کلان داده کشف کرد. یکی از روش ها برای تجزیه وتحلیل داده های جریانی و تشخیص ناهنجاری ها، الگوریتم خوشه بندی است. هدف از خوشه بندی داده ها، افراز مجموعه ای از اشیا به گروه های مجزا است که یکی از این الگوریتم های خوشه بندی جریان داده، الگوریتم AutoCloud است. AutoCloud یک الگوریتم آنلاین و تک مرحله ای بازگشتی برای خوشه بندی جریان داده ها بر مبنای فاصله اقلیدسی است. این الگوریتم بر اساس مفهوم تجزیه وتحلیل داده Typicality و Eccentricity شکل گرفته است که عمدتاً برای کارهای تشخیص ناهنجاری استفاده می شود. همچنین AutoCloud قادر به مدیریت کردن مشکلات ذاتی در جریان داده ها مانند رانش مفهوم و تکامل مفهوم است. ولی باتوجه به این که دقت انجام عمل در AutoCloud در مورد اکثر مجموعه-داده ها خیلی مناسب نیست، به نظر می رسد که استفاده از انواع فاصله های دیگر، مناسب تر باشد و با افزودن روش هایی به AutoCloud، دقت بهبود یابد؛ بنابراین در این پژوهش سعی شده است با پیاده سازی چند ایده، بررسی شود که آیا با تغییر دادن AutoCloudمی توان منجر به بهبود آن شد یا خیر. ایده اول، استفاده از فاصله ماهالانوبیسی برای این الگوریتم است. نتایج نشان می دهد که اگر AutoCloud بر مبنای فاصله اقلیدسی باشد، بهتر از فاصله ماهالانوبیسی عمل می کند. به همین دلیل استفاده از فاصله ماهالانوبیسی در AutoCloud خیلی مؤثر ن