اطلاعیه دفاع از پایان نامه کارشناسی ارشد در رشته مهندسی کامپیوتر گرایش هوش مصنوعی مجید رفیعی

21 Jan 2019
کد خبر : 5355378
تعداد بازدید : 25635

 

دانشکده فنی و مهندسی

گروه آموزشی مهندسی کامپیوتر

اطلاعیه دفاع از  پایان نامه کارشناسی ارشد در رشته مهندسی کامپیوتر گرایش هوش مصنوعی

عنوان:

پاسخ­گویی به پرسش­های مطرح ­شده از تصاویر به کمک تکنیک­های یادگیری عمیق

استاد راهنما:

جناب آقای دکتر میرحسین دزفولیان

اساتید ممتحن:

جناب آقای دکتر حسن ختن­­لو

جناب آقای دکتر مهدی عباسی

 پژوهشگر:

مجید رفیعی

زمان:

یکشنبه  30/10/1397 ساعت 15:30

مکان:

سمینار 2 دپارتمان برق (سالن مرحوم مهندس خانمحمدی)

 

Bu-Ali Sina University

Faculty of Engineering

Department of Computer Engineering

 

Thesis submitted for Master of Science in computer Engineering-Artificial Intelligence

 

Title:

Visual Question Answering Using Deep Learning Techniques

Supervisor:

Dr.Mir Hossein Dezfoulian

 Judges:

Dr.Hassan Khotanlou

Dr.Muharram Mansoorizadeh

 

Author:

Majid Rafie

 

January 20, 2019

 

پاسخ­گویی به پرسش­های مطرح شده از تصاویر (VQA)، یک مسئله¬ی تحقیقاتی میان رشته­ای در هوش مصنوعی است. این مسئله علاوه بر بینایی ماشین، حوزه­های دیگری همانند پردازش زبان­های طبیعی و نمایش دانش و استدلال را نیز پوشش می دهد. از آن­جا که VQA، محیطی عملیاتی برای سنجش درک عمیق تصاویر به حساب می­آید، طی سالیان گذشته با اقبال پژوهشگران حوزه­ی هوش مصنوعی مواجه شد است.

پژوهش پیش­رو، به­منظور ارائه­ی راهکاری برای حل مسئله­ی VQA طرح­ریزی شده است. با آن­که در چند سال گذشته، تمامی روش­های سرآمد VQA از معماری­های نسبتاً پیچیده­ای استفاده کرده­اند، اما پژوهش­های اخیر نشان می­دهد، مدل­های ساده­تر نیز به شرط پیاده­سازی مناسب می­توانند عملکردی در حد مدل­های پیچیده ارائه نمایند. بر این اساس، در پژوهش جاری تلاش شده است تا مدلی ساده، سریع و قابل فهم برای حل مسئله­ی VQA طراحی گردد که عملکرد قابل قبولی نیز داشته باشد.

سنگ بنای روش پیشنهادی، بر پایه¬ی روش Anderson و همکاران  پی­ریزی شده است. مهم­ترین مزیت این روش، ارائه­ی سازوکاری تحت عنوان مکانیزم توجه پایین به بالا برای استخراج ویژگی­های تصویر است. روش انتخاب شده با اتکا بر قابلیت فوق العاده­ی خود در تشخیص اشیاء موفق به کسب رتبه نخست چالش VQA 2017 شده است.

روش پیشنهادی این پژوهش،  بر مبنای شبکه­های عصبی عمیق بنا نهاده شده و از رویکرد مرسوم تعبیه­سازی توأم ویژگی­های تصویر و پرسش بهره می­برد. به صورت خلاصه، مدل پیشنهادی از پنج بخش اصلی تشکیل گردیده است: استخراج ویژگی­های تصویر، تعبیه­سازی پرسش، مکانیزم توجه، ادغام ویژگی­ها و در نهایت تولید پاسخ.

روش پیشنهادی پس از پیاده­سازی به کمک چارچوب یادگیری عمیق Pytorch، بر روی دیتاست VQA v2.0  آموزش دیده است. در مسایل یادگیری عمیق، بخش مهمی از هر پژوهش به تنظیم پارامتر­های شبکه از طریق اعتبارسنجی و آزمایش­های تجربی اختصاص می­یابد  از این رو، در این پژوهش نیز به قصد دستیابی به مدلی بهینه، آزمایش­های فراوانی در جهت انتخاب بهترین معماری و بهینه­ترین hyperparameterها صورت پذیرفته است. پس از انجام این فرآیند بهینه­سازی، درنهایت، مدلی به دست آمده است که با کسب 65.19 درصد از امتیاز¬های بخش test-dev دیتاست، در حدود 2 درصد نسبت به روش پایه بهبود داشته است.

کلمات کلیدی: پاسخ­گویی به پرسش های مطرح شده از تصاویر، بینایی ماشین، پردازش زبان های طبیعی، شبکه های عصبی، یادگیری عمیق، تعبیه سازی متن، شبکه های پیچشی عمیق، مکانیزم توجه

 

Visual Question Answering (VQA)  is an interdisciplinary research problem in artificial intelligence. In addition to machine vision, VQA also covers other areas, such as natural language processing and the presentation of knowledge and reasoning. Since the VQA is an operational environment for measuring the profound understanding of images, IA researchers have been struggling over the past years.

Advance research is designed to provide a solution for solving the VQA problem. Although in the past few years, all of the VQA's advanced methods have used complex architectures, recent research has shown that simpler models are also required to be implemented Suitable can function as complex models. Accordingly, in the current research, we have tried to design a simple, fast, and understandable model for solving VQA problem that has acceptable performance.

The cornerstone of the proposed method is based on Anderson et al. The most important advantage of this method is to provide a mechanism called the low-level attention mechanism for extracting image attributes. The chosen method, based on its extraordinary capability in identifying objects, has been ranked first in the 2017 VQA Challenge.

The proposed method is based on deep neural networks and uses the conventional approach of embedding of image and query features. In summary, the proposed model consists of five main sections: extraction of image characteristics, question insertion, attention mechanism, feature integration, and ultimately response generation.

The proposed method has been trained on the VQA v2.0 data through its Pytorch deep learning framework implementation. In deep learning issues, an important part of each research is to set up network parameters through validation and empirical experiments. Therefore, in order to achieve optimal model, in this research, there are many tests to choose Best architecture and optimal hyperparameters. After this optimization process, a model has been developed that yields 65.19% of the test-dev score, which is about 2% better than the base method.

 

 


نام و نام خانوادگی : مجید رفیعی                                                

رشته‌ی تحصیلی : هوش مصنوعی و رباتیک

مقطع تحصیلی : کارشناسی ارشد          

پست الکترونیکی          :  majid.rafie200@gmail.com

 

اطلاعات تحصیلی :

1-    کارشناسی ارشد :

کارشناسی ارشد مهندسی کامپیوتر گرایش هوش مصنوعی ، دانشگاه  بوعلی سینا همدان (در حال تحصیل ورودی 1395)

 معدل : 18.01

2-    کارشناسی :

کارشناسی مهندسی نرم افزار، صنعتی اصفهان (1387-1383)

3-    دیپلم  :

دیپلم ریاضی ،  دبیرستان شهید بهمنی همدان (1383-1380)

 

مهارت‌ها :

          برنامه نویسی  Python, Matlab, C#

مسلط به فریم ورک Pytorch  در واحد پردازنده گرافیکی (GPU)