بررسی وحل چالش تقسیم‌بندی داده‌های جریان در داده‌های حجیم

بررسی وحل چالش تقسیم‌بندی داده‌های جریان در داده‌های حجیم


بررسی وحل چالش تقسیم‌بندی داده‌های جریان در داده‌های حجیم

نوع: Type: پایان نامه

مقطع: Segment: کارشناسی ارشد

عنوان: Title: بررسی وحل چالش تقسیم‌بندی داده‌های جریان در داده‌های حجیم

ارائه دهنده: Provider: زهرا عمیقی

اساتید راهنما: Supervisors: دکتر مرتضی یوسف صنعتی - دکتر میرحسین دزفولیان

اساتید مشاور: Advisory Professors:

اساتید ممتحن یا داور: Examining professors or referees: دکتر محرم منصوری زاده - کتر مهدی سخایی نیا

زمان و تاریخ ارائه: Time and date of presentation: چهارشنبه 23/07/1399 ساعت 14:00

مکان ارائه: Place of presentation:

چکیده: Abstract: جریان‌داده یک توالی نامحدود از داده‌هایی است که با سرعت و در حجم بالا تولید می‌شود. با در نظر گرفتن چنین تعریفی، پردازش اطلاعات جریان به عنوان یک موجودیت واحد بسیار دشوار و در برخی جریان‌ها ناممکن است. بنابراین، روش‌هایی ایجاد شده‌اند که بتوانند پردازش چنین داده‌هایی را امکان‌پذیر نمایند. یکی از رایج‌ترین این روش‌ها، خوشه‌بندی نام دارد که می‌تواند اقلام اطلاعاتی مشابه را در تعدادی گروه‌ قرار دهد. EvoStream یکی از الگوریتم‌های خوشه‌بندی جریان است که با استفاده از یک الگوریتم تکاملی به صورت تدریجی در زمان‌های بیکاری جریان، خوشه‌بندی نهایی را انجام می‌دهد. این الگوریتم ضمن ایجاد نتایج رقابتی با سایر الگوریتم‌ها در این حوزه، سربار محاسباتی مرحله آفلاین را به طور موثری کاهش می‌دهد. تعداد خوشه‌ها در الگوریتم EvoStream ثابت درنظر گرفته می‌شود، درحالی که در جریان‌داده‌ی واقعی این تعداد در طول زمان متغیر است و به پیچیدگی داده‌های ورودی بستگی دارد. از طرف دیگر از آنجایی­که زمان وقوع بیکاری و طول زمان مذکور از الگوی خاصی تبعیت نمی­کند ممکن است برخی گام­های تکاملی به پایان نرسند که این امر با توجه به ثابت نبودن تعداد خوشه‌ها از کیفیت خوشه‌ها می‌کاهد. در راستای رفع این مشکلات در این پایان‌نامه الگوریتم جدیدی ارائه شده است که تعداد خوشه‌ها را به درستی تشخیص داده و ضمن بهبود کیفیت خوشه‌ها، اجرای مرحله‌ی تکاملی را تا چهار برابر تسریع می‌کند.

فایل: ّFile: