بهبود توضیح تصاویر به کمک شبکه های عصبی توسعه یافته عمیق - دانشکده فنی و مهندسی
بهبود توضیح تصاویر به کمک شبکه های عصبی توسعه یافته عمیق

نوع: Type: پایان نامه
مقطع: Segment: کارشناسی ارشد
عنوان: Title: بهبود توضیح تصاویر به کمک شبکه های عصبی توسعه یافته عمیق
ارائه دهنده: Provider: احسان عاکفی - مهندسی کامپیوتر
اساتید راهنما: Supervisors: دکتر حسن ختن لو- دکتر محرم منصوری زاده
اساتید مشاور: Advisory Professors:
اساتید ممتحن یا داور: Examining professors or referees: دکتر عباس رمضانی - دکتر رضا محمدی
زمان و تاریخ ارائه: Time and date of presentation: ساعت 10 - 1403/11/17
مکان ارائه: Place of presentation: آمفی تاتر
چکیده: Abstract: توضیح تصویر، ترکیبی از دو حوزه کلیدی بینایی کامپیوتر و پردازش زبان طبیعی است که هدف آن ارائه توضیحهایی دقیق، معنادار و مرتبط برای تصاویر است. در این پژوهش، روشی نو برای بهبود سیستمهای توضیح تصویر ارائه شده که از ترکیب دو مدل پیشرفتهی Swin Transformer و ConvNeXt برای استخراج ویژگیهای بصری استفاده میکند. مدل Swin Transformer با ساختار سلسلهمراتبی خود قادر است روابط بین اجزای تصویر را به خوبی شناسایی کند، در حالی که مدل ConvNeXt با بهبود معماری شبکههای عصبی پیچشی، ویژگیهای محلی تصویر را با دقت بیشتری استخراج و بازنمایی میکند. این ترکیب، امکان استخراج جامعتر و دقیقتر ویژگیها را فراهم کرده، و دقت مدل در درک محتوای تصویر را افزایش داده است. در بخش تولید متن، از یک مدل مبتنی بر ترنسفورمر استفاده شده است که با بهرهگیری از مکانیزم توجه و یادگیری تقویتی و امتیاز شباهت به دست آمده از مدل CLIP، توضیحاتی دقیق، متمایز و مرتبط با تصویر تولید میکند. مدل CLIP که تصاویر و متون را بهطور مشترک در یک فضای معنایی بازنمایی میکند، بهعنوان ابزاری برای ارزیابی و هدایت مدل جهت تولید جملات معنادار و متناسب با تصویر به کار رفته است. برای ارزیابی این روش، علاوه بر معیارهای سنتی مانند BLEU، CIDEr و ROUGE، از معیارهای پیشرفتهتری نظیر CLIPScore و BERTScore برای سنجش شباهت معنایی توضیحات استفاده شده است. نتایج آزمایشها روی مجموعهدادههای استانداردی مانند MS COCO و یک مجموعهدادهی جدید به نام FineCapEval نشان میدهد، که روش پیشنهادی بهطور قابلتوجهی کیفیت و دقت توضیحات تولیدی را در مقایسه با مدلهای قبلی بهبود داده است. این پژوهش با ارائه رویکردی جامع و نوآورانه در زمینهی استخراج ویژگیهای بصری و تولید توضیحات متنی، گامی مؤثر در حل چالشهای این حوزه برداشته است.
فایل: ّFile: دانلود فایل