پایان نامه کارشناسی ارشد آقای مهرداد باقری با عنوان «برچسب‌‌گذاری تصاویر بدون نمونه آموزشی با کمک شبکه‌‌های عصبی بازگشتی»

تاریخ انتشار : Publish : نسخه قابل چاپ Print

دانشکده فنی و مهندسی

گروه آموزشی مهندسی کامپیوتر

اطلاعیه دفاع از  پایان نامه کارشناسی ارشد در رشته مهندسی کامپیوتر گرایش هوش مصنوعی

عنوان:

برچسب‌‌گذاری تصاویر بدون نمونه آموزشی با کمک شبکه‌‌های عصبی بازگشتی

استاد راهنما:

جناب آقای دکتر محرم منصوری­زاده

استاد مشاور:

جناب آقای دکتر میرحسین دزفولیان  

اساتید ممتحن:

جناب آقای دکتر حسن ختنلو

جناب آقای دکتر مهدی سخائی­نیا

پژوهشگر:

مهرداد باقری

زمان:

چهارشنبه 24/11/1397 ساعت 11 صبح

مکان:

سمینار 2 دپارتمان برق (سالن مهندس مرحوم خانمحمدی)

 

Bu-Ali Sina University

Faculty of Engineering

Department of Computer Engineering

 

Thesis submitted for Master of Science in computer Engineering-Artificial Intelligence

 

Title:

Zero Shot Image Tagging by Recurrent Neural Networks

Supervisor:

Dr. Muharram Mansoorizadeh

Adviser:

Dr. Mir Hossein Dezfoulian

 

Judges:

Dr. Hassan Khotanlou

Dr. Mahdi Sakhaeinia

 

Author:

Mehrdad Bagheri

 February 13, 2019

 

 

چکیده:

روش‌‌های متداول برای برچسب‌‌زنی تصاویر از مجموعه‌‌دادگانی استفاده می‌‌کنند که به ازای هر تصویر یک یا چند برچسب محیا شده است. این در حالی است که امروزه برچسب‌‌های مختلفی از سوی کاربران فضاهای مجازی (Flickr، Instagram و ...) به تصاویر نسبت داده می‌‌شود. حال آن‌‌که جمع‌‌آوری این برچسب‌‌ها و به‌‌روز‌‌رسانی مجموعه‌‌داده‌‌ها، کاری بسیار چالش‌‌برانگیز و پرهزینه است. از این رو در سال‌‌های اخیر، مسئله انتساب  برچسب‌‌های نوین به تصاویر و یا برچسب‌‌زنی تصاویر بدون نمونه آموزشی، توجه محققین را به خود جلب کرده است.

در این پایان‌‌نامه، در دو مرحله به تولید برچسب‌‌های نوین برای تصاویر مجموعه‌‌داده Cifar100 پرداخته‌‌ایم. در مرحله اول از شبکه‌‌های عصبی بازگشتی و همچنین ساختار سلسله مراتبی برچسب‌‌ها، برای تخمین محتمل‌‌ترین برچسب به ازای تصاویر، استفاده کرده‌‌ایم. شبکه‌‌های عصبی بازگشتی به دلیل حفظ اطلاعات مراحل پیشین برای کار با دادگان متوالی و یادگیری الگوی موجود در آن‌‌ها بسیار مناسب می‌‌باشند. همچنین این شبکه‌‌ها مولد/زایشی بوده و می‌‌توان از آن‌‌ها برای تولید برچسب‌‌های نوین هم در حوزه دامنه‌‌بسته و هم در حوزه دامنه‌‌باز، استفاده کرد. در این راستا، ابتدا توسط شبکه عصبی ResNet، بردار ویژگی تصاویر استخراج شده و سپس توالی بردار ویژگی و برچسب‌‌های تصاویر (با الگوی کلی به جزئی) به عنوان دادگان متوالی برای یادگیری شبکه بازگشتی در نظر گرفته شده‌‌اند. به این ترتیب،  با استفاده از شبکه عصبی بازگشتی و همچنین با کمک الگوی موجود در توالی برچسب‌‌ها، محتمل‌‌ترین برچسب جزئی، به ازای هر تصویر، تخمین زده می‌‌شود. در مرحله دوم، به ازای برچسب‌‌های تخمین زده شده توسط شبکه عصبی بازگشتی و با استفاده از فضای معنایی کلمات (یادگیری شده توسط مدل تبدیل کلمه به بردار)، به تولید برچسب‌‌های نوین به ازای تصاویر مجموعه‌‌داده Cifar100 پرداخته‌‌ایم. برای آموزش مدل تبدیل بردار به کلمه، از دو مجموعه‌‌داده Flickr و GoogleNews به عنوان دادگان‌‌مبدأ استفاده شده است. برای ارزیابی برچسب‌‌های نوین تولید شده، از والدین برچسب‌‌های فاز آموزش در ساختار درختی WordNet استفاده کرده‌‌ایم. یعنی برچسب‌‌های نوین تولید شده با والدین به دست آمده توسط ساختار درختی WordNet مقایسه می‌‌شوند. دلیل انتخاب والدین این است که برای مثال اگر برای یک تصویر "سیب" برچسب جدید "میوه" را تولید کنیم؛ از لحاظ معنایی برچسب تولید شده صحیح است. اما عکس این قضیه صادق نیست. در مجموع، نتایج حاصل از پیاده‌‌سازی، نشان می‌‌دهد که روش پیشنهادی برای برچسب‌‌زنی تصاویر بدون نمونه آموزشی و تولید برچسب‌‌های نوین از دقت قابل قبولی برخوردار است.

           

واژه‌‌های کلیدی: برچسب‌‌زنی تصاویر، شبکه عصبی بازگشتی، رزنت، وردنت، نادیده

 

 

Abstract:

Common methods for image tagging use datasets that contain one or more labels for each image. Meanwhile, nowadays different labels are attributed to images by social media users like instagram and flicker, etc. however collecting these labels and updating datasets is a very challenging and costly task.Hence in the recent years, the task of assigning new labels to images or zero shot image tagging, has attracted the attention of a lot of researchers to itself.

In this thesis, we have focused on generating new labels for the Cifar100 dataset. The proposed method contains two steps. In the first step, we used recurrent neural networks as well as the hierarchical structure of labels to estimate the most probable label for the images. Recurrent neural networks are suitable for sequential data and learning their underlying patterns due to their ability to preserve information from the previous stages. These networks are also generative/productive and can be used to generate new labels in open domains as well as closed domains. In this regard, first using the ResNet neural network, the feature vector of images are extracted and then the sequence of feature vectors and image labels (coarse to fine) is used as sequential data to train the recurrent neural network. Therefore, using the recurrent neural network and also with the help of underlying patterns in the label's sequence the most probable partial label is estimated for each image. In the second step, for the labels estimated by the recurrent neural network  and using the word semantic space (learnt by the word2vec model), new labels for the images of Cifar100 dataset are generated. In order to train the word2vec model, two Flickr and GoogleNews datasets have been used as source data. To evaluate new generated labels, The parents of train phase labels in the WordNet tree structure, were used. In other words, the new generated labels are compared to the parents acquired by the WordNet tree structure. The reason for choosing the parents is that if for example for an image of an "apple" we generated the new label "fruit", this new label is semantically right. But it would not be right for the other way. In general, the experimental results show that the proposed method for zero shot image tagging and generating new labels, has an acceptable performance.

 

Key Words: Image Tagging, Recurrent Neural Network, ResNet, WordNet, Zero Shot

 

 

نام و نام خانوادگی : مهرداد باقری                                                                   

رشته‌ی تحصیلی : هوش مصنوعی و رباتیک

مقطع تحصیلی : کارشناسی ارشد          

 

اطلاعات تحصیلی :

1-    کارشناسی ارشد :

کارشناسی ارشد مهندسی کامپیوتر گرایش هوش مصنوعی ، دانشگاه  بوعلی سینا همدان (در حال تحصیل ورودی 1395)

 معدل : 16.52

2-    کارشناسی :

کارشناسی مهندسی کامپیوتر گرایش نرم افزار ، از دانشگاه صنعتی شاهرود (1394-1390)

معدل : 15.85

عنوان پروژه : طراحی سایت فروشگاه دیجیتالی با استفاده از وردپرس

3-    دیپلم  :

دیپلم ریاضی ،  از دبیرستان تیزهوشان علامه حلی تهران-اندیشه (1389-1385)

 

سابقه‌ی پژوهشی:

          مقاله با عنوان "مقایسه و ارزیابی شبکه­های عصبی بازگشتی RBM و LSTM برای برچسب­زنی تصاویر" در کنفرانس CFIS2019

 

مهارت‌ها :

          برنامه نویسی C و C++ و java و python

مسلط به نرم‌افزار متلب