بهبود توضیح تصاویر به کمک شبکه های عصبی توسعه یافته عمیق

نوع: Type: پایان نامه

مقطع: Segment: کارشناسی ارشد

عنوان: Title: بهبود توضیح تصاویر به کمک شبکه های عصبی توسعه یافته عمیق

ارائه دهنده: Provider: احسان عاکفی - مهندسی کامپیوتر

اساتید راهنما: Supervisors: دکتر حسن ختن‏ لو- دکتر محرم منصوری زاده

اساتید مشاور: Advisory Professors:

اساتید ممتحن یا داور: Examining professors or referees: دکتر عباس رمضانی - دکتر رضا محمدی

زمان و تاریخ ارائه: Time and date of presentation: ساعت 10 - 1403/11/17

مکان ارائه: Place of presentation: آمفی تاتر

چکیده: Abstract: توضیح تصویر، ترکیبی از دو حوزه کلیدی بینایی کامپیوتر و پردازش زبان طبیعی است که هدف آن ارائه توضیح‏هایی دقیق، معنادار و مرتبط برای تصاویر است. در این پژوهش، روشی نو برای بهبود سیستم‌های توضیح تصویر ارائه شده که از ترکیب دو مدل پیشرفته‌ی Swin Transformer و ConvNeXt برای استخراج ویژگی‌های بصری استفاده می‌کند. مدل Swin Transformer با ساختار سلسله‌مراتبی خود قادر است روابط بین اجزای تصویر را به خوبی شناسایی کند، در حالی که مدل ConvNeXt با بهبود معماری شبکه‌های عصبی پیچشی، ویژگی‌های محلی تصویر را با دقت بیشتری استخراج و بازنمایی می‌کند. این ترکیب، امکان استخراج جامع‌تر و دقیق‌تر ویژگی‌ها را فراهم کرده، و دقت مدل در درک محتوای تصویر را افزایش داده است. در بخش تولید متن، از یک مدل مبتنی بر ترنسفورمر استفاده شده است که با بهره‌گیری از مکانیزم توجه و یادگیری تقویتی و امتیاز شباهت به دست آمده از مدل CLIP، توضیحاتی دقیق، متمایز و مرتبط با تصویر تولید می‌کند. مدل CLIP که تصاویر و متون را به‌طور مشترک در یک فضای معنایی بازنمایی می‌کند، به‌عنوان ابزاری برای ارزیابی و هدایت مدل جهت تولید جملات معنادار و متناسب با تصویر به کار رفته است. برای ارزیابی این روش، علاوه بر معیارهای سنتی مانند BLEU، CIDEr و ROUGE، از معیارهای پیشرفته‌تری نظیر CLIPScore و BERTScore برای سنجش شباهت معنایی توضیحات استفاده شده است. نتایج آزمایش‌ها روی مجموعه‌داده‌های استانداردی مانند MS COCO و یک مجموعه‌داده‌ی جدید به نام FineCapEval نشان می‌دهد، که روش پیشنهادی به‌طور قابل‌توجهی کیفیت و دقت توضیحات تولیدی را در مقایسه با مدل‌های قبلی بهبود داده است. این پژوهش با ارائه رویکردی جامع و نوآورانه در زمینه‌ی استخراج ویژگی‌های بصری و تولید توضیحات متنی، گامی مؤثر در حل چالش‌های این حوزه برداشته است.

فایل: ّFile: دانلود فایل