بهبود عملکرد پاسخ‌دهی به سوالات پرسیده شده از متن درون عکس

نوع: Type: پایان نامه

مقطع: Segment: کارشناسی ارشد

عنوان: Title: بهبود عملکرد پاسخ‌دهی به سوالات پرسیده شده از متن درون عکس

ارائه دهنده: Provider: کبری فرشیدی - رشته کامپیوتر

اساتید راهنما: Supervisors: دکتر حسن ختن‌لو، دکتر محرم منصوری‌زاده

اساتید مشاور: Advisory Professors:

اساتید ممتحن یا داور: Examining professors or referees: دکتر میرحسین دزفولیان، دکتر رضا محمدی

زمان و تاریخ ارائه: Time and date of presentation: 11الی12:30 - 1401/12/01

مکان ارائه: Place of presentation: سالن آمفی تئاتر

چکیده: Abstract: یکی از حوزه‌های موردعلاقه‌ی پژوهشگران در سالیان اخیر پرسش و پاسخ از درون تصویر بوده است در واقع پژوهش‌گران به این نتیجه رسیدند، راه‌حلی بیابند تا هنگامی که کاربر از اجزای درون تصویر، سوالی بصورت متنی بپرسد، با روش‌های ایده‌آل او را به پاسخ مطلوب برسانند. پژوهش‌گران مدل‌هایی متناسب با این حوزه ارائه دادند که به موفقیت‌هایی هم رسید. البته با وجود تلاش بر روی معماری‌های متفاوت، هنوز هم این حوزه دارای دقت بالایی که بتوان بصورت عام از آن مدل‌ها بهره برد، نرسیده است. پژوهش‌گران در سال 2019 پی بردند که بیشتر سوالات پرسیده شده از تصویر، از تحلیل در متن‌های درون تصویر بوده است. پژوهش‌گران تلاش کردند حوزه‌ی جدیدی به نام پرسش از متن‌های درون تصویر را ارائه کنند تا به تحلیل و بررسی این حوزه بیشتر بپردازند. آن‌ها به این نتیجه رسیدند که برای بررسی این مدل‌ها، اول از همه می‌بایست متن‌های درون تصویر را استخراج کنند. آن‌ها برای این کار از موتور تشخیص کاراکتر بهره بردند ولی از آنجا که سوال پرسیده شده نیاز به ارتباط بین سوال پرسیده شده با ترکیبی از اشیای بصری و کلمه‌های درون تصویر است، بنابراین شروع به طراحی مدل‌هایی با اتصال 3 وجهی کردند این 3 وجه در واقع اشیای بصری ، توکن‌های سؤال پرسیده شده و توکن‌های متن درون تصویر است. آن‌ها در طی 3 سال اخیر از جدیدترین تکنولوژی‌ها بهره برده و مدل‌های بسیار متنوعی ارائه دادند. در مدل‌هایی که تاکنون طراحی شده، تمرکز اصلی بر روی نحوه تعامل بین ویژگی‌های بصری و متنی است و به درست بودن متن استخراج شده از تصویر تمرکز کمتری شده است در حالی‌که در صورتی که متن استخراج شده از تصویر اشتباه باشد، ما را به پاسخ اشتباهی خواهد رساند و این می‌تواند یکی از دلایل دقت پائین این حوزه تا به امروز باشد. ما در این پژوهش مدلی ارائه داده‌ایم که روی این مرحله از این حوزه یعنی اطمینان از صحت متن استخراج شده، تمرکز شده است. در واقع ما هنگامی که متن از تصویر استخراج می‌شود، ابتدا با کمک اقدامات پیش‌پردازش تصویر و پیش‌پردازش متن‌ همچون تصحیح غلط‌های املایی و پاک کردن نویز تصاویر، این متن را بهبود می‌دهیم سپس وجه‌ها را بهم متصل می‌کنیم. نتایج ارزیابی‌ها نشان می‌دهد که مدل ارائه شده‌ی ما بر روی مجموعه داده‌ی رایج به‌کار گرفته شده در بین پژوهش‌گران این حوزه، یعنی TextVQA توانسته معیار ارزیابی رایج این حوزه، یعنی accuracy را به اندازه‌ی 1% بالا ببرد.

فایل: ّFile: تنزيل فایل