استفاده از خوشه بندی در جریان لاگ بهمنظور تشخیص ناهنجاری های سیستم - دانشکده فنی و مهندسی
استفاده از خوشه بندی در جریان لاگ بهمنظور تشخیص ناهنجاری های سیستم
نوع: Type: پایان نامه
مقطع: Segment: کارشناسی ارشد
عنوان: Title: استفاده از خوشه بندی در جریان لاگ بهمنظور تشخیص ناهنجاری های سیستم
ارائه دهنده: Provider: مهسا مرادی - رشته کامپیوتر
اساتید راهنما: Supervisors: آقای دکتر مرتضی یوسف صنعتی
اساتید مشاور: Advisory Professors:
اساتید ممتحن یا داور: Examining professors or referees: آقای دکتر مهدی سخایی نیا و آقای دکتر رضا محمدی
زمان و تاریخ ارائه: Time and date of presentation: 1402/07/25 ساعت 18:30
مکان ارائه: Place of presentation: کلاس 27
چکیده: Abstract: امروزه علم دادهکاوی بستری فراهم کرده است تا بتوان با بهکارگیری فناوریهای جدیدی مانند هوش مصنوعی و یادگیری ماشین، به تجزیه¬وتحلیل و استخراج مفاهیم نهفته در دادهها پرداخت و از آنها برای کارهای مختلف و مهم استفاده کرد. دادهکاوی علم استخراج الگوها، اطلاعات و تحلیل از مجموعه¬دادههای خامی است که در یک سازمان یا در هر مجموعه دیگری تولید شده است. این داده¬ها با سرعت بالایی تولید می¬شوند که گاهی اوقات جریانی از داده¬ها را تشکیل می¬دهند. جریان داده انتقال مداوم دادهها با سرعت ثابت و بالا است. در برخی موارد سیستم¬های اطلاعاتی، جریانی از لاگ را تولید می-کنند. یک لاگ منبع غنی اطلاعاتی برای تشخیص و پیشبینی خطاها یا رفتارهای ناهنجار موجود در سیستم¬ها است که شامل تمامی رویدادها، اتفاقات و خطاها در اجرای یک نرمافزار یا سیستمعامل است. این خطاها را میتوان از طریق تجزیهوتحلیل لاگ¬ها با استفاده از الگوریتمهای کلانداده کشف کرد. یکی از روش¬ها برای تجزیه¬وتحلیل داده¬های جریانی و تشخیص ناهنجاری¬ها، الگوریتم خوشه¬بندی است. هدف از خوشه¬بندی داده¬ها، افراز مجموعه¬ای از اشیا به گروه¬های مجزا است که یکی از این الگوریتم¬های خوشه¬بندی جریان داده، الگوریتم AutoCloud است. AutoCloud یک الگوریتم آنلاین و تکمرحلهای بازگشتی برای خوشه¬بندی جریان داده¬ها بر مبنای فاصله اقلیدسی است. این الگوریتم بر اساس مفهوم تجزیهوتحلیل داده Typicality و Eccentricity شکلگرفته است که عمدتاً برای کارهای تشخیص ناهنجاری استفاده می¬شود. همچنین AutoCloud قادر به مدیریتکردن مشکلات ذاتی در جریان داده¬ها مانند رانش مفهوم و تکامل مفهوم است. ولی باتوجهبه این که دقت انجام عمل در AutoCloud در مورد اکثر مجموعه¬داده¬ها خیلی مناسب نیست، به نظر می¬رسد که استفاده از انواع فاصله¬های دیگر، مناسب¬تر باشد و با افزودن روش¬هایی به AutoCloud، دقت بهبود یابد؛ بنابراین در این پژوهش سعی شده است با پیاده¬سازی چند ایده، بررسی شود که آیا با تغییر دادن AutoCloudمیتوان منجر به بهبود آن شد یا خیر. ایده اول، استفاده از فاصله ماهالانوبیسی برای این الگوریتم است. نتایج نشان می¬دهد که اگر AutoCloud بر مبنای فاصله اقلیدسی باشد، بهتر از فاصله ماهالانوبیسی عمل می¬کند. به همین دلیل استفاده از فاصله ماهالانوبیسی در AutoCloud خیلی مؤثر نیست. در AutoCloud، تشکیل خوشه¬ها می¬تواند در جذب داده¬ها تأثیرگذار باشد؛ بنابراین ایده دوم اضافهکردن الگوریتم Kmeans به ابتدای AutoCloudاست. در این ایده، 1000 نمونه داده¬ی اول بهصورت آفلاین و مابقی داده¬ها بهصورت آنلاین پردازش می¬شوند. هدف از ایده دوم این است که خوشه¬هایی توسط Kmeans ایجاد شوند و بعد از آن داده¬ها با Eccentricity جذب شوند تا با استفاده از Kmeans و مفهوم Eccentricity و باتوجهبه انتخاب مناسب خوشه¬ها، بتوان خوشه¬بندی بهتری داشت. به طور کلی نتایج بهدستآمده با این روش، بدتر از روش پایه شده است. ایده سوم مانند ایده دوم عمل می¬کند با این تفاوت که حد آستانه برای شرط جذب نمونه داده¬ها به خوشه¬ها، تغییر یافته است. حد آستانه با استفاده از مفهوم Eccentricity در خوشه¬های Kmeans، محاسبه گردیده است. در نهایت جهت تشخیص ناهنجاری¬ها در لاگ، اصل "σ gap" در الگوریتم AutoCloudپیاده¬سازی شده است. نتایج نشان می¬دهد که دقت تشخیص ناهنجاری در لاگ با استفاده از روش پیشنهادی، بسیار پایین است. نتایج نشان می¬دهد که روش¬های پیشنهادی، بدتر از الگوریتم AutoCloud عمل می-کند.
فایل: ّFile: تنزيل فایل