سید محمد حسین موسوی

سید محمد حسین موسوی


تاریخ انتشار : Publish : نسخه قابل چاپ Print


 


پایان‌نامه برای دریافت درجه کارشناسی ارشد

در رشته مهندسی کامپیوتر گرایش هوش مصنوعی

  

عنوان:

تشخیص حالات و ریز­حالات چهره با استفاده از تصاویر و ویدیو های RGB-D

 

 

 

استاد راهنما:

دکتر حسن ختن‌لو

 

داور‌ها :

دکتر میر‌حسین دزفولیان

 

دکتر مهدی سخایی نیا

 

 

 

پژوهشگر:

سید محمد حسین موسوی


12/7/96 ساعت 17:30

مکان: کلاس 27

 

Bu-Ali Sina University

 

Faculty of engineering

Department of computer engineering

  

Thesis submitted for Master of Science in Computer Engineering-Artificial Intelligence

 

 

Title:

 

Facial Expressions and Micro Expressions Recognition Using RGB-D Images and Videos

 

Supervisor:

Dr. Hassan Khotanlou

 

Arbitrators:

Dr. MirHossein Dezfoulian

 

Dr. Mehdi Sakhaie-nia


By:

Seyed Muhammad Hossein Mousavi

 
 

October 4, 2017

 

چكيده:

چهره انسان بیان کننده احساسات درونی، تفکرات و تا حدودی کسالت­های جسمی او است. این احساسات از طریق عضلات صورت به صورت بصری نمود پیدا می­کند. تحقیقات نشان داده است که حالات صورت بهترین وسیله برای انتقال احساسات می­باشند. حالات و ریز­حالات چهره­ی افراد می­تواند در تصاویر و فریم­های ویدیویی دیجیتال مورد بررسی قرار گیرند. مدت زمان تخمینی رخ دادن یک حالت در چهره بین 0.5 تا 4 ثانیه و یک ریز حالت بین 0.1 تا 0.5 ثانیه است. همچنین در بعضی مراجع این مقدار 3/1، 15/1 و 25/1 ثانیه هم بیان شده است. بدیهی است برای ثبت ریز حالتها ، دریافت فریم های ویدیویی بین 30 تا 60 فریم در ثانیه ضروری است. قبل از پیدایش سنسورهای عمق سنج ، این عمل توسط تصاویر فقط بافت انجام می­گرفت. اما بعد از پیدایش سنسور های عمق سنج(Depth Sensor)  ،دقت تشخیص حالات چهره به دلیل داده های بیشتر که همان بعد عمق می­باشد،به شکل چشم­گیری بالا رفت. این مساله یک دهه است که به خوبی در این زمینه ملموس است. سنسور های عمق سنج زیادی وجود دارند ولی استفاده از سنسور عمق سنج کینکت) (Kinect در میان توسعه دهندگان بسیار محبوب است. تشخیص حالت چهره در تعامل انسان و ربات، پویا نمایی دوبعدی و سه بعدی، روانشناسی، ارتباطات غیر کلامی یا زبان بدن، تشخیص حس درونی، مسائل امنیتی مانند دروغ سنجی و ... کاربرد دارد. استخراج ویژگی یکی از مهمترین بخش­های پردازش تصویر است و بخش اعظمی از کار­های پیشنهادی در این پژوهش بر پایه این مبحث است. در این راستا روش­هایی جهت استخراج ویژگی از تصاویر بافت و عمق پیشنهاد شده است. در این روش استخراج ویژگی جدید که ترکیبی از مباحث پیش پردازش جهت حذف نویزدر حوزه مکان و فرکانس، فیلتری خاص جهت تشخیص لبه ها با کرنال یا ماسک دلخواه، استفاده از گرادیان تصویر جهت بارز تر شدن ویژگی های چهره و پس پردازش­هایی به شکل مورفولوژی جهت از بین بردن لبه­های اضافی، اعمال روشهای استخراج ویژگی متناسب با هر عنصر چهره و استفاده از توصیف­گرهای مطرح جهت توصیف تصویر پردازش و ویرایش­شده، گامی رو به جلو در این زمینه برداشته شده. ویژگی­های مورد استفاده در این پژوهش شامل هسیتوگرام جهت گرادیان(HOG)، فیلتر گابور(Gabor Filter)، ویژگی­های توانمند سرعت یافته(SURF)، رقمی ساز فاز محلی(LPQ) الگو های دودویی محلی (LBP) و ویژگی هار(Haar) هستند. همچنین به علت کمبود پایگاه داده تشخیص حالات چهره به قالب بافتی عمقی) RGB-D (و همچنین نقصان­های پایگاه داده های موجود، پایگاه داده­ای شامل 40 نفرمدل ویا Subject در سنین و جنسیت مختلف توسط سنسورکینکت ورژن 2 ) Kinect V.2 (جمع آوری شده که مشکلات پایگاه داده های موجود با خصوصیات مشابه را تا حد قابل قبولی برطرف کرده است. از طرفی می­توان گفت این پایگاه داده اولین پایگاه داده عمق برای تشخیص ریز حالات چهره می­باشد. لازم به ذکر است که این پایگاه داده، با نام پایگاه داده کینکت چهره ایرانیان و به لاتین Iranian Kinect Face Databse (IKFDB) نامگذاری گردیده است. با توجه به اینکه داده دریافتی از کینکت به دو بخش بافت (RGB) وعمق( Depth) تقسیم می­شود، یک روش استخراج ویژگی ترکیبی هم برای داده های عمق بر اساس تغییرات فاصله پیکسلی با سنسور عمق در نظر گرفته شده است. بخشی هم تحت عنوان تخمین سن و تشخیص جنسیت طراحی شده که تخمین سن بر اساس چگالی پیکسلی عضلات ناحیه اطراف بینی و یک فیلتر منحصر به فرد ،سن افراد داخل پایگاه داده ها را تخمین می­زند. بخش تشخیص جنسیت هم بر اساس آموزش داده های کلاس مذکر و مونث و به شکل نظارت شده و یا Supervised انجام می­پذیرد. الگوریتمی هم جهت کشف و استخراج چهره در تصاویر عمق ارائه شده است. این روشها به ازای پایگاه داده های معتبر این زمینه و یا اصطلاحا پایگاه داده های Benchmark و پایگاه داده پیشنهادی مقایسه خواهند شد. پایگاه داده های مورد استفاده جهت ارزیابی سیستم پایگاه داده های Eurecom Kinect Face DB, VAP RGBD Face DB, VAP RGBD-T Face DB, Curtin Face, FEEDB JAFFE, KDEF, IKFDB, Face Grabber می­باشند که توسط سنسورهای مختلف بافت یا رنگی (RGB)، عمق (Depth) و گرمایی(Thermal) در دو نوع تصویر و فریم­های ویدیویی تهیه شده اند. به دلیل حجم بالای ویژگی های استخراج شده تصاویر رنگ و عمق کینکت، باید عملی تحت عنوان انتخاب ویژگی بر روی ویژگی های استخراج شده اعمال شود که در این پژوهش این عمل توسط روش تنظیم کمند (Lasso Regularization) صورت می­گیرد. در این روش با از دست دادن کمترین میزان اطلاعات (نزدیک به کمتر از 1 درصد) نه تنها تعداد ویژگی های انتخابی بسیار کاهش می­یابد، بلکه ویژگی­هایی با بیشترین ارتباط انتخاب می­شوند. نهایتا ویژگی های انتخاب شده به شکل بردار ویژگی برای یادگیری به سیستمهای یادگیری ماشین بردار پشتیبان (SVM) و شبکه عصبی چند لایه(MLNN)  فرستاده می­شوند. این اعمال به ازای داده های آموزشی و آزمایشی ویا Train و Testو نسبت به تمام پایگاه داده ها ودر چهار حالت تشخیص چهره، تشخیص جنسیت، تشخیص حالات چهره و تشخیص ریز حالات چهره مورد بررسی و ارزیابی قرار می­گیرند. نتایج کاملا امیدوار کننده است و افزایش دقت کلاسبندی در بعضی پایگاه داده ها و روش­ها به چشم می­خورد. از طرفی بعضی از این اعمال برای اولین بار بر روی بعضی از این پایگاه داده ها انجام شده است.

 

واژه‌های کلیدی: تشخیص حالات چهره، تشخیص ریز حالات چهره، سنسور عمق سنج کینکت،  هسیتوگرام جهت گرادیان، فیلتر گابور،  ویژگی­های توانمند سرعت یافته،  رقمی ساز فاز محلی، الگو­های دو­دویی محلی، ویژگی هار ، مورفولوژی، پایگاه داده کینکت چهره ایرانیان، تنظیم کمند ، ماشین بردار پشتیبان، شبکه عصبی چند لایه

 

Abstract:

      Human face states the inner expressions, thoughts, and to some extent disorders. These expressions via facial muscles get visual reality. Researches indicate that facial expressions are the best way thorough which expressions can be expressed. Human face expressions and micro expressions in the images and digital video frames can be examined. The estimated time through which a facial expression occurs is between 0.5 to 4 seconds, and a micro expression between 0.1 to 0.5. Also in some references this value is stated 1.3, 1.15 and 1.25 seconds. Obviously, for the purpose of recording micro expressions, obtaining videos frames between 30 up to 60 fps is necessary. Before depth sensors emerge, this act took place only by RGB images. But after depth sensors emerged, due to more data (depth dimension), precision in facial expression recognition substantially grew up. This is for a decade that this issue has been clearly evident in this field. There are many kinds of depth sensors, but among them Kinect depth sensor has gained the most popularity among developers. Facial expressions recognition has application in: interaction between human and robot, two and three dimensional animation, psychology, non-verbal communication or language, inner expression recognition, security issues such lie test etc. Feature extraction is one of the most important parts of image processing, and a great portion of the proposal works in this research is based on this debate. There are methods proposed for feature extraction out of the texture and depth images in this regard. In this new feature extraction method, which is a combination of preprocessing discourses for noise removal in the spatial and frequency domain, a special filter for detecting edges with desired kernel or mask, use of image gradient on face images for face features getting more prominent, and post-processing in morphology form for eliminating redundant edges, applying proper feature extraction methods on each face element, and use of famous descriptors for describing processed and edited images, there has been a boost in this field. The used features in this study are: HOG, Gabor Filter, SURF, LPQ, LBP, and Haar. Due to the shortage of RGB-D facial expression recognition database, and also due to the defects in available databases, a database including 40 individuals or subjects in a variety of age and genders with the sensor Kinect V.2 is gathered which to an acceptable extent has resolved the problems of the available databases with similar features. It can be said this database is the first depth database for micro facial expression. This database is named Iranian Kinect Face Database (IKFDB). Considering received data of Kinect is divided in to two parts RGB and Depth, a hybrid feature extraction method for depth data, and based on pixel distance alterations with depth sensor is considered. A section under the title of age estimation and gender recognition is designed in which age estimation estimates the age based on pixel density of muscles around the nose, and a unique filter which estimates the age of individuals in the databases. The section of gender recognition is performed based on the male and female class data learning and in a supervised manner. Also an algorithm to detecting and extracting face out of Depth images is presented. These methods with the benchmark databases, and the proposed database will be compared. Databases used for assessing are Eurecom Kinect Face DB, VAP RGBD Face DB, VAP RGBD-T Face, JAFFE, IKFDB, Face Grabber DB, Curtin Face, FEEDB, which by are prepared in two kinds (image and video frames) by different RGB, Depth and Thermal sensors. Owing to the large volume of extracted features of colour and depth image of Kinect, we need to apply an action named feature selection on the extracted features; in this study this action is performed by the Lasso Regularization method. In this approach, with losing least of data (nearly 1 percent) not only the number of selectable features decreases, but features with the most relation are chosen. Finally selected features, in the shape of feature vector, and for learning are sent to SVM and MLNN. These actions are examined and evaluated on Test and Train data for all databases, and in four forms of face recognition, gender detection, facial expression recognition, and micro facial expression recognition. The results are really satisfactory, and it indicates the increase in classification precision in some databases and methods. Some of these actions are performed on some of these databases for the first time.

 

Key Words: Facial Expressions Recognition, Micro Facial Expressions Recognition, Kinect Depth Sensor, Histogram of Oriented Gradient (HOG), Gabor Filter, Speeded Up Robust Features (SURF), Local Phase Quantization (LPQ), Local Binery Pattern (LBP), Haar Feature, Morphology, Iranian Kinect Face Data Base (IKFDB),  Lasso Regularization,  Support Vector Machine,  multi-layer neural network (MLNN)

 

بسمه تعالي

 

1- مشخصات فردي :

 

نام و نام خانوادگی: سید محمد حسین موسوی

محل تولد: شهر ری

تاریخ تولد: ۰۸/۰۵/۱۳۶۹

وضعیت تاهل:   مجرد     متاهل

وضعیت نظام وظیفه:   پایان خدمت       معافیت دائم          معافیت تحصیلی

نشانی محل سکونت: تهران خیابان پیروزی-خیابان نبرد شمالی-خ۲۰متری صاحب الزمان-روبروی داروخانه-پلاک۵۶

شماره همراه : ۰۹۳۳۲۸۹۲۷۲۶

شماره تماس : ۰۲۱۳۳۰۵۷۱۸۶

نشانی وب سایت :   https://www.researchgate.net/profile/Seyed_Mousavi15

پست الکترونیکی: mosavi.a.i.buali@gmail.com

       

 

 

2- سوابق تحصيلي :

معدل

کشور/ شهر محل تحصیل

نام واحد آموزشی

مدت تحصیل

گرایش

رشته تحصیلی

مقطع تحصیلی

۱۶.۵۰

ایران - قم

دانشگاه آزاد اسلامی واحد قم

۳۱/۴/۱۳۹۳

۱۵/۱۱/۱۳۹۰

نرم‌افزار

مهندسی کامپیوتر

لیسانس

-

ایران - همدان

دانشگاه بوعلی‌سینا

-

۱/۷/۱۳۹۳

هوش مصنوعی

مهندسی کامپیوتر

فوق لیسانس

 


 

 

3-  مهارت در زبان خارجی :

1.1.1.1.1.1.1       زبان

1.1.1.1.1.1.2       Reading

1.1.1.1.1.1.3       Writing

1.1.1.1.1.1.4       Speaking

انگلیسی

عالی

خوب

متوسط

         

 

 

 

4-  مهارت هاي تخصصي:

نام مهارت

1.1.1.1.1.1.5       ميزان تسلط

ICDL

میزان تسلط به این مجموعه (Word , Excel , Power Point , … ) : خوب

آشنایی با زبان‌های برنامه‌نویسی

مسلط به زبان‌های : C++,Pascal , Matlab و کار با پایگاه داده های مختلف (SQL , Access)

آشنا با زبان‌های : C, Visual Basic , Java , C#

گرافیک

3D Max-Auto cad-Mari-Mudbox-Photoshop-V-ray-Kinect Depth

 

 

5-  مقالات:

Optimization of the Ho-Kashyap classification algorithm using appropriate learning samples

Information and Knowledge Technology (IKT), 2016 Eighth International Conference on

 

An Edge Detection System for Polluted Images by Gaussian, Salt and pepper, Poisson and Speckle Noises

4th National Conference on Information Technology,Computer & TeleCommunication, At Iran-Torbat-e Heydarieh,(2017)

 

Runtime Optimization of Widrow-Haff Classification Algorithm Using Proper Learning Samples

4th National Conference on Information Technology,Computer & TeleCommunication, At Iran-Torbat-e Heydarieh,(2017)

 

New Artificial Landscape for Single-Objective Problems and Validation of Evolutionary Algorithms

The Fourth International Conference on knowledge base research in computer engineering and information technology,(2017)

 

A Hybrid Clustering System Based on, (DE) Algorithm for Setting Efficient Initial States, and Diverse Pairwise Distances for Clustering

2nd International Conference on Research Knowledge Base in Computer Engineering and IT,(2017)

 

An Evolutionary-Based Adaptive Neuro-Fuzzy Expert System as a Family Counselor before Marriage with the Aim of Divorce Rate Reduction

2nd International Conference on Research Knowledge Base in Computer Engineering and IT,(2017)

 

A New Support Vector Finder Method, Based on Triangular Calculations and K-means Clustering

Conference: 9th International Conference on Information and Knowledge Technology(IKT 2017), At Tehran-Iran

 

Galaxy Gravity Optimization(GGO) An Algorithm for Optimization, Inspired by Comets Life Cycle

The 19th CSI International Symposium on Artificial Intelligence and Signal Processing (AISP) - CSI 2017, At Shiraz- Iran

 

A PSO Fuzzy-Expert System: As an Assistant for Specifying the Acceptance by NOET Measures, at PHD Level

Conference: The 19th CSI International Symposium on Artificial Intelligence and Signal Processing (AISP) - CSI 2017, At Shiraz- Iran