ترکیب و همجوشی اطلاعات متن و تصویر برای بازیابی اسناد چندرسانه¬ای به کمک شبکه های عصبی - دانشکده فنی و مهندسی
ترکیب و همجوشی اطلاعات متن و تصویر برای بازیابی اسناد چندرسانه¬ای به کمک شبکه های عصبی
نوع: Type: پایان نامه
مقطع: Segment: کارشناسی ارشد
عنوان: Title: ترکیب و همجوشی اطلاعات متن و تصویر برای بازیابی اسناد چندرسانه¬ای به کمک شبکه های عصبی
ارائه دهنده: Provider: محمد مرادلی
اساتید راهنما: Supervisors: دکتر میر حسین دزفولیان
اساتید مشاور: Advisory Professors: دکتر محرم منصوری زاده
اساتید ممتحن یا داور: Examining professors or referees: دکتر مهدی سخایی نیا، دکتر مهدی عباسی
زمان و تاریخ ارائه: Time and date of presentation: 1400/6/31 ساعت 16
مکان ارائه: Place of presentation: مجازی
چکیده: Abstract: در دهه¬ی اخیر به دلیل رشد گسترده اطلاعات چندرسانه¬ای نیاز به بازیابی اسناد چندرسانه¬ای بیشتر شده است. بازیابی اسناد چندرسانه¬ای به معنی یافتن نزدیک¬ترین نمونه¬ها از میان اطلاعات موجود به نمونه پرسش است. این نمونه¬ها می¬توانند از انواع مختلف داده باشند. در این پژوهش از دو نوع متن و تصویر استفاده شده است. قسمت چالش برانگیز، شکاف معنایی بین انواع مختلف داده است که محاسبه مشابهت بین انواع داده را دشوار می¬کند. در مدل پیشنهادی برای محاسبه شباهت ابتدا پیش پردازش¬های لازم روی متن خام صورت می¬گیرد سپس به کمک شبکه BERT بردار ویژگی¬های هر متن استخراج می¬شود. به صورت موازی، شبکه-ی VGGNet16 بردار ویژگی¬های تصاویر را استخراج می¬کند. سپس این بردارهای ویژگی به شبکه GCN داده می¬شود تا شباهت¬های درون نوعی یادگیری و تقویت شود. در مرحله بعد خروجی شبکه GCN به یک شبکه سیامی با دو زیر شبکه داده می¬شود تا همبستگی بین نوعی یادگیری شود. درنهایت نمونه¬ها در فضای hamming space به صورت کدهای hash با طول مشخص نگاشت می¬شوند. این ساختار به صورت end-to-end و به کمک تابع خطایی که فاصله نمونه¬های مشابه را در فضای hamming space کمینه کند، آموزش داده می¬شود. در این پژوهش از مجموعه داده Wikipedia به صورت نیمه نظارتی استفاده شده است. بررسی نتایج به دست آمده نشان می¬دهد که ساختار پیشنهادی به دقت مناسبی نسبت به مدل های پیشین دست یافته است.
فایل: ّFile: تنزيل فایل