اطلاعیه دفاع از پایان نامه کارشناسی ارشد در رشته مهندسی کامپیوتر گرایش هوش مصنوعی مجید رفیعی - دانشکده فنی و مهندسی
دانشکده فنی و مهندسی
گروه آموزشی مهندسی کامپیوتر
اطلاعیه دفاع از پایان نامه کارشناسی ارشد در رشته مهندسی کامپیوتر گرایش هوش مصنوعی
عنوان:
پاسخگویی به پرسشهای مطرح شده از تصاویر به کمک تکنیکهای یادگیری عمیق
استاد راهنما:
جناب آقای دکتر میرحسین دزفولیان
اساتید ممتحن:
جناب آقای دکتر حسن ختنلو
جناب آقای دکتر مهدی عباسی
پژوهشگر:
مجید رفیعی
زمان:
یکشنبه 30/10/1397 ساعت 15:30
مکان:
سمینار 2 دپارتمان برق (سالن مرحوم مهندس خانمحمدی)
Bu-Ali Sina University
Faculty of Engineering
Department of Computer Engineering
Thesis submitted for Master of Science in computer Engineering-Artificial Intelligence
Title:
Visual Question Answering Using Deep Learning Techniques
Supervisor:
Dr.Mir Hossein Dezfoulian
Judges:
Dr.Hassan Khotanlou
Dr.Muharram Mansoorizadeh
Author:
Majid Rafie
January 20, 2019
پاسخگویی به پرسشهای مطرح شده از تصاویر (VQA)، یک مسئله¬ی تحقیقاتی میان رشتهای در هوش مصنوعی است. این مسئله علاوه بر بینایی ماشین، حوزههای دیگری همانند پردازش زبانهای طبیعی و نمایش دانش و استدلال را نیز پوشش می دهد. از آنجا که VQA، محیطی عملیاتی برای سنجش درک عمیق تصاویر به حساب میآید، طی سالیان گذشته با اقبال پژوهشگران حوزهی هوش مصنوعی مواجه شد است.
پژوهش پیشرو، بهمنظور ارائهی راهکاری برای حل مسئلهی VQA طرحریزی شده است. با آنکه در چند سال گذشته، تمامی روشهای سرآمد VQA از معماریهای نسبتاً پیچیدهای استفاده کردهاند، اما پژوهشهای اخیر نشان میدهد، مدلهای سادهتر نیز به شرط پیادهسازی مناسب میتوانند عملکردی در حد مدلهای پیچیده ارائه نمایند. بر این اساس، در پژوهش جاری تلاش شده است تا مدلی ساده، سریع و قابل فهم برای حل مسئلهی VQA طراحی گردد که عملکرد قابل قبولی نیز داشته باشد.
سنگ بنای روش پیشنهادی، بر پایه¬ی روش Anderson و همکاران پیریزی شده است. مهمترین مزیت این روش، ارائهی سازوکاری تحت عنوان مکانیزم توجه پایین به بالا برای استخراج ویژگیهای تصویر است. روش انتخاب شده با اتکا بر قابلیت فوق العادهی خود در تشخیص اشیاء موفق به کسب رتبه نخست چالش VQA 2017 شده است.
روش پیشنهادی این پژوهش، بر مبنای شبکههای عصبی عمیق بنا نهاده شده و از رویکرد مرسوم تعبیهسازی توأم ویژگیهای تصویر و پرسش بهره میبرد. به صورت خلاصه، مدل پیشنهادی از پنج بخش اصلی تشکیل گردیده است: استخراج ویژگیهای تصویر، تعبیهسازی پرسش، مکانیزم توجه، ادغام ویژگیها و در نهایت تولید پاسخ.
روش پیشنهادی پس از پیادهسازی به کمک چارچوب یادگیری عمیق Pytorch، بر روی دیتاست VQA v2.0 آموزش دیده است. در مسایل یادگیری عمیق، بخش مهمی از هر پژوهش به تنظیم پارامترهای شبکه از طریق اعتبارسنجی و آزمایشهای تجربی اختصاص مییابد از این رو، در این پژوهش نیز به قصد دستیابی به مدلی بهینه، آزمایشهای فراوانی در جهت انتخاب بهترین معماری و بهینهترین hyperparameterها صورت پذیرفته است. پس از انجام این فرآیند بهینهسازی، درنهایت، مدلی به دست آمده است که با کسب 65.19 درصد از امتیاز¬های بخش test-dev دیتاست، در حدود 2 درصد نسبت به روش پایه بهبود داشته است.
کلمات کلیدی: پاسخگویی به پرسش های مطرح شده از تصاویر، بینایی ماشین، پردازش زبان های طبیعی، شبکه های عصبی، یادگیری عمیق، تعبیه سازی متن، شبکه های پیچشی عمیق، مکانیزم توجه
Visual Question Answering (VQA) is an interdisciplinary research problem in artificial intelligence. In addition to machine vision, VQA also covers other areas, such as natural language processing and the presentation of knowledge and reasoning. Since the VQA is an operational environment for measuring the profound understanding of images, IA researchers have been struggling over the past years.
Advance research is designed to provide a solution for solving the VQA problem. Although in the past few years, all of the VQA's advanced methods have used complex architectures, recent research has shown that simpler models are also required to be implemented Suitable can function as complex models. Accordingly, in the current research, we have tried to design a simple, fast, and understandable model for solving VQA problem that has acceptable performance.
The cornerstone of the proposed method is based on Anderson et al. The most important advantage of this method is to provide a mechanism called the low-level attention mechanism for extracting image attributes. The chosen method, based on its extraordinary capability in identifying objects, has been ranked first in the 2017 VQA Challenge.
The proposed method is based on deep neural networks and uses the conventional approach of embedding of image and query features. In summary, the proposed model consists of five main sections: extraction of image characteristics, question insertion, attention mechanism, feature integration, and ultimately response generation.
The proposed method has been trained on the VQA v2.0 data through its Pytorch deep learning framework implementation. In deep learning issues, an important part of each research is to set up network parameters through validation and empirical experiments. Therefore, in order to achieve optimal model, in this research, there are many tests to choose Best architecture and optimal hyperparameters. After this optimization process, a model has been developed that yields 65.19% of the test-dev score, which is about 2% better than the base method.
نام و نام خانوادگی : مجید رفیعی
رشتهی تحصیلی : هوش مصنوعی و رباتیک
مقطع تحصیلی : کارشناسی ارشد
پست الکترونیکی : majid.rafie200@gmail.com
اطلاعات تحصیلی :
1- کارشناسی ارشد :
کارشناسی ارشد مهندسی کامپیوتر گرایش هوش مصنوعی ، دانشگاه بوعلی سینا همدان (در حال تحصیل ورودی 1395)
معدل : 18.01
2- کارشناسی :
کارشناسی مهندسی نرم افزار، صنعتی اصفهان (1387-1383)
3- دیپلم :
دیپلم ریاضی ، دبیرستان شهید بهمنی همدان (1383-1380)
مهارتها :
برنامه نویسی Python, Matlab, C#
مسلط به فریم ورک Pytorch در واحد پردازنده گرافیکی (GPU)