سید محمد حسین موسوی - دانشکده فنی و مهندسی
پایاننامه برای دریافت درجه کارشناسی ارشد
در رشته مهندسی کامپیوتر گرایش هوش مصنوعی
عنوان:
تشخیص حالات و ریزحالات چهره با استفاده از تصاویر و ویدیو های RGB-D
استاد راهنما:
دکتر حسن ختنلو
داورها :
دکتر میرحسین دزفولیان
دکتر مهدی سخایی نیا
پژوهشگر:
سید محمد حسین موسوی
12/7/96 ساعت 17:30
مکان: کلاس 27
Bu-Ali Sina University
Faculty of engineering
Department of computer engineering
Thesis submitted for Master of Science in Computer Engineering-Artificial Intelligence
Title:
Facial Expressions and Micro Expressions Recognition Using RGB-D Images and Videos
Supervisor:
Dr. Hassan Khotanlou
Arbitrators:
Dr. MirHossein Dezfoulian
Dr. Mehdi Sakhaie-nia
By:
Seyed Muhammad Hossein Mousavi
October 4, 2017
چكيده: |
چهره انسان بیان کننده احساسات درونی، تفکرات و تا حدودی کسالتهای جسمی او است. این احساسات از طریق عضلات صورت به صورت بصری نمود پیدا میکند. تحقیقات نشان داده است که حالات صورت بهترین وسیله برای انتقال احساسات میباشند. حالات و ریزحالات چهرهی افراد میتواند در تصاویر و فریمهای ویدیویی دیجیتال مورد بررسی قرار گیرند. مدت زمان تخمینی رخ دادن یک حالت در چهره بین 0.5 تا 4 ثانیه و یک ریز حالت بین 0.1 تا 0.5 ثانیه است. همچنین در بعضی مراجع این مقدار 3/1، 15/1 و 25/1 ثانیه هم بیان شده است. بدیهی است برای ثبت ریز حالتها ، دریافت فریم های ویدیویی بین 30 تا 60 فریم در ثانیه ضروری است. قبل از پیدایش سنسورهای عمق سنج ، این عمل توسط تصاویر فقط بافت انجام میگرفت. اما بعد از پیدایش سنسور های عمق سنج(Depth Sensor) ،دقت تشخیص حالات چهره به دلیل داده های بیشتر که همان بعد عمق میباشد،به شکل چشمگیری بالا رفت. این مساله یک دهه است که به خوبی در این زمینه ملموس است. سنسور های عمق سنج زیادی وجود دارند ولی استفاده از سنسور عمق سنج کینکت) (Kinect در میان توسعه دهندگان بسیار محبوب است. تشخیص حالت چهره در تعامل انسان و ربات، پویا نمایی دوبعدی و سه بعدی، روانشناسی، ارتباطات غیر کلامی یا زبان بدن، تشخیص حس درونی، مسائل امنیتی مانند دروغ سنجی و ... کاربرد دارد. استخراج ویژگی یکی از مهمترین بخشهای پردازش تصویر است و بخش اعظمی از کارهای پیشنهادی در این پژوهش بر پایه این مبحث است. در این راستا روشهایی جهت استخراج ویژگی از تصاویر بافت و عمق پیشنهاد شده است. در این روش استخراج ویژگی جدید که ترکیبی از مباحث پیش پردازش جهت حذف نویزدر حوزه مکان و فرکانس، فیلتری خاص جهت تشخیص لبه ها با کرنال یا ماسک دلخواه، استفاده از گرادیان تصویر جهت بارز تر شدن ویژگی های چهره و پس پردازشهایی به شکل مورفولوژی جهت از بین بردن لبههای اضافی، اعمال روشهای استخراج ویژگی متناسب با هر عنصر چهره و استفاده از توصیفگرهای مطرح جهت توصیف تصویر پردازش و ویرایششده، گامی رو به جلو در این زمینه برداشته شده. ویژگیهای مورد استفاده در این پژوهش شامل هسیتوگرام جهت گرادیان(HOG)، فیلتر گابور(Gabor Filter)، ویژگیهای توانمند سرعت یافته(SURF)، رقمی ساز فاز محلی(LPQ) الگو های دودویی محلی (LBP) و ویژگی هار(Haar) هستند. همچنین به علت کمبود پایگاه داده تشخیص حالات چهره به قالب بافتی عمقی) RGB-D (و همچنین نقصانهای پایگاه داده های موجود، پایگاه دادهای شامل 40 نفرمدل ویا Subject در سنین و جنسیت مختلف توسط سنسورکینکت ورژن 2 ) Kinect V.2 (جمع آوری شده که مشکلات پایگاه داده های موجود با خصوصیات مشابه را تا حد قابل قبولی برطرف کرده است. از طرفی میتوان گفت این پایگاه داده اولین پایگاه داده عمق برای تشخیص ریز حالات چهره میباشد. لازم به ذکر است که این پایگاه داده، با نام پایگاه داده کینکت چهره ایرانیان و به لاتین Iranian Kinect Face Databse (IKFDB) نامگذاری گردیده است. با توجه به اینکه داده دریافتی از کینکت به دو بخش بافت (RGB) وعمق( Depth) تقسیم میشود، یک روش استخراج ویژگی ترکیبی هم برای داده های عمق بر اساس تغییرات فاصله پیکسلی با سنسور عمق در نظر گرفته شده است. بخشی هم تحت عنوان تخمین سن و تشخیص جنسیت طراحی شده که تخمین سن بر اساس چگالی پیکسلی عضلات ناحیه اطراف بینی و یک فیلتر منحصر به فرد ،سن افراد داخل پایگاه داده ها را تخمین میزند. بخش تشخیص جنسیت هم بر اساس آموزش داده های کلاس مذکر و مونث و به شکل نظارت شده و یا Supervised انجام میپذیرد. الگوریتمی هم جهت کشف و استخراج چهره در تصاویر عمق ارائه شده است. این روشها به ازای پایگاه داده های معتبر این زمینه و یا اصطلاحا پایگاه داده های Benchmark و پایگاه داده پیشنهادی مقایسه خواهند شد. پایگاه داده های مورد استفاده جهت ارزیابی سیستم پایگاه داده های Eurecom Kinect Face DB, VAP RGBD Face DB, VAP RGBD-T Face DB, Curtin Face, FEEDB JAFFE, KDEF, IKFDB, Face Grabber میباشند که توسط سنسورهای مختلف بافت یا رنگی (RGB)، عمق (Depth) و گرمایی(Thermal) در دو نوع تصویر و فریمهای ویدیویی تهیه شده اند. به دلیل حجم بالای ویژگی های استخراج شده تصاویر رنگ و عمق کینکت، باید عملی تحت عنوان انتخاب ویژگی بر روی ویژگی های استخراج شده اعمال شود که در این پژوهش این عمل توسط روش تنظیم کمند (Lasso Regularization) صورت میگیرد. در این روش با از دست دادن کمترین میزان اطلاعات (نزدیک به کمتر از 1 درصد) نه تنها تعداد ویژگی های انتخابی بسیار کاهش مییابد، بلکه ویژگیهایی با بیشترین ارتباط انتخاب میشوند. نهایتا ویژگی های انتخاب شده به شکل بردار ویژگی برای یادگیری به سیستمهای یادگیری ماشین بردار پشتیبان (SVM) و شبکه عصبی چند لایه(MLNN) فرستاده میشوند. این اعمال به ازای داده های آموزشی و آزمایشی ویا Train و Testو نسبت به تمام پایگاه داده ها ودر چهار حالت تشخیص چهره، تشخیص جنسیت، تشخیص حالات چهره و تشخیص ریز حالات چهره مورد بررسی و ارزیابی قرار میگیرند. نتایج کاملا امیدوار کننده است و افزایش دقت کلاسبندی در بعضی پایگاه داده ها و روشها به چشم میخورد. از طرفی بعضی از این اعمال برای اولین بار بر روی بعضی از این پایگاه داده ها انجام شده است.
واژههای کلیدی: تشخیص حالات چهره، تشخیص ریز حالات چهره، سنسور عمق سنج کینکت، هسیتوگرام جهت گرادیان، فیلتر گابور، ویژگیهای توانمند سرعت یافته، رقمی ساز فاز محلی، الگوهای دودویی محلی، ویژگی هار ، مورفولوژی، پایگاه داده کینکت چهره ایرانیان، تنظیم کمند ، ماشین بردار پشتیبان، شبکه عصبی چند لایه
Abstract: |
Human face states the inner expressions, thoughts, and to some extent disorders. These expressions via facial muscles get visual reality. Researches indicate that facial expressions are the best way thorough which expressions can be expressed. Human face expressions and micro expressions in the images and digital video frames can be examined. The estimated time through which a facial expression occurs is between 0.5 to 4 seconds, and a micro expression between 0.1 to 0.5. Also in some references this value is stated 1.3, 1.15 and 1.25 seconds. Obviously, for the purpose of recording micro expressions, obtaining videos frames between 30 up to 60 fps is necessary. Before depth sensors emerge, this act took place only by RGB images. But after depth sensors emerged, due to more data (depth dimension), precision in facial expression recognition substantially grew up. This is for a decade that this issue has been clearly evident in this field. There are many kinds of depth sensors, but among them Kinect depth sensor has gained the most popularity among developers. Facial expressions recognition has application in: interaction between human and robot, two and three dimensional animation, psychology, non-verbal communication or language, inner expression recognition, security issues such lie test etc. Feature extraction is one of the most important parts of image processing, and a great portion of the proposal works in this research is based on this debate. There are methods proposed for feature extraction out of the texture and depth images in this regard. In this new feature extraction method, which is a combination of preprocessing discourses for noise removal in the spatial and frequency domain, a special filter for detecting edges with desired kernel or mask, use of image gradient on face images for face features getting more prominent, and post-processing in morphology form for eliminating redundant edges, applying proper feature extraction methods on each face element, and use of famous descriptors for describing processed and edited images, there has been a boost in this field. The used features in this study are: HOG, Gabor Filter, SURF, LPQ, LBP, and Haar. Due to the shortage of RGB-D facial expression recognition database, and also due to the defects in available databases, a database including 40 individuals or subjects in a variety of age and genders with the sensor Kinect V.2 is gathered which to an acceptable extent has resolved the problems of the available databases with similar features. It can be said this database is the first depth database for micro facial expression. This database is named Iranian Kinect Face Database (IKFDB). Considering received data of Kinect is divided in to two parts RGB and Depth, a hybrid feature extraction method for depth data, and based on pixel distance alterations with depth sensor is considered. A section under the title of age estimation and gender recognition is designed in which age estimation estimates the age based on pixel density of muscles around the nose, and a unique filter which estimates the age of individuals in the databases. The section of gender recognition is performed based on the male and female class data learning and in a supervised manner. Also an algorithm to detecting and extracting face out of Depth images is presented. These methods with the benchmark databases, and the proposed database will be compared. Databases used for assessing are Eurecom Kinect Face DB, VAP RGBD Face DB, VAP RGBD-T Face, JAFFE, IKFDB, Face Grabber DB, Curtin Face, FEEDB, which by are prepared in two kinds (image and video frames) by different RGB, Depth and Thermal sensors. Owing to the large volume of extracted features of colour and depth image of Kinect, we need to apply an action named feature selection on the extracted features; in this study this action is performed by the Lasso Regularization method. In this approach, with losing least of data (nearly 1 percent) not only the number of selectable features decreases, but features with the most relation are chosen. Finally selected features, in the shape of feature vector, and for learning are sent to SVM and MLNN. These actions are examined and evaluated on Test and Train data for all databases, and in four forms of face recognition, gender detection, facial expression recognition, and micro facial expression recognition. The results are really satisfactory, and it indicates the increase in classification precision in some databases and methods. Some of these actions are performed on some of these databases for the first time.
Key Words: Facial Expressions Recognition, Micro Facial Expressions Recognition, Kinect Depth Sensor, Histogram of Oriented Gradient (HOG), Gabor Filter, Speeded Up Robust Features (SURF), Local Phase Quantization (LPQ), Local Binery Pattern (LBP), Haar Feature, Morphology, Iranian Kinect Face Data Base (IKFDB), Lasso Regularization, Support Vector Machine, multi-layer neural network (MLNN)
بسمه تعالي
1- مشخصات فردي : |
|||
|
نام و نام خانوادگی: سید محمد حسین موسوی |
||
محل تولد: شهر ری |
تاریخ تولد: ۰۸/۰۵/۱۳۶۹ |
||
نشانی محل سکونت: تهران – خیابان پیروزی-خیابان نبرد شمالی-خ۲۰متری صاحب الزمان-روبروی داروخانه-پلاک۵۶ |
|||
شماره همراه : ۰۹۳۳۲۸۹۲۷۲۶ |
شماره تماس : ۰۲۱۳۳۰۵۷۱۸۶ |
||
نشانی وب سایت : https://www.researchgate.net/profile/Seyed_Mousavi15 |
پست الکترونیکی: mosavi.a.i.buali@gmail.com |
||
2- سوابق تحصيلي : |
|||||||
معدل |
کشور/ شهر محل تحصیل |
نام واحد آموزشی |
مدت تحصیل |
گرایش |
رشته تحصیلی |
مقطع تحصیلی |
|
۱۶.۵۰ |
ایران - قم |
دانشگاه آزاد اسلامی واحد قم |
۳۱/۴/۱۳۹۳ |
۱۵/۱۱/۱۳۹۰ |
نرمافزار |
مهندسی کامپیوتر |
لیسانس |
- |
ایران - همدان |
دانشگاه بوعلیسینا |
- |
۱/۷/۱۳۹۳ |
هوش مصنوعی |
مهندسی کامپیوتر |
فوق لیسانس |
3- مهارت در زبان خارجی : |
||||
1.1.1.1.1.1.1 زبان |
1.1.1.1.1.1.2 Reading |
1.1.1.1.1.1.3 Writing |
1.1.1.1.1.1.4 Speaking |
|
انگلیسی |
عالی |
خوب |
متوسط |
|
4- مهارت هاي تخصصي: |
|
نام مهارت |
1.1.1.1.1.1.5 ميزان تسلط |
ICDL |
میزان تسلط به این مجموعه (Word , Excel , Power Point , … ) : خوب |
آشنایی با زبانهای برنامهنویسی |
مسلط به زبانهای : C++,Pascal , Matlab و کار با پایگاه داده های مختلف (SQL , Access) آشنا با زبانهای : C, Visual Basic , Java , C# |
گرافیک |
3D Max-Auto cad-Mari-Mudbox-Photoshop-V-ray-Kinect Depth |