زهرا رستمی - دانشکده فنی و مهندسی
دانشکده مهندسی
گروه آموزشی کامپیوتر
اطلاعیه دفاع از طرح پیشنهادی پایان نامه کارشناسی ارشد در رشته مهندسی کامپیوتر
عنوان:
شناسایی کنش و تعامل انسان-انسان در تصاویر RGB-D با بکارگیری تکنیکهای یادگیری ماشین
استاد راهنما:
دکتر حسن ختن لو
اساتید ممتحن:
دکتر محرم منصوری زاده
دکتر حاتم عبدلی
پژوهشگر:
زهرا رستمی
تاریخ دفاع:
شنبه 30/10/96 ساعت 16
مکان:
سمینار 2 (سالن مهندس مرحوم خانمحمدی)
Bu-Ali Sina University
Faculty of Engineering
Department of Computer Engineering
Thesis submitted for Master of Science in computer Engineering-Artificial Intelligence
Title:
Human action and interaction recognition in RGB-D images using machine learning techniques
Supervisor:
Dr.Hassan Khotanlou
Judges:
Dr.Muharram Mansoorizadeh
Dr.Hatam Abdoli
Author:
Zahra Rostami
January 20, 2018
چکیده:
شناسایی فعالیت انسان یکی از موضوعات پر کاربرد و جدید در حوزه یادگیری و بینایی ماشین است که به دلیل مسائلی نظیر تغییرات شرایط نوری، تغییرات زاویه دید، پسزمینه درهم ریخته و ... با چالشهای فراوانی مواجه است. در یک دستهبندی کلی میتوان فعالیتهای انسان را به 4 دسته تقسیم کرد که عبارتاند از: فعالیتهای تک نفره(کنش)، تعامل انسان با شیء، تعامل انسان با انسان و فعالیتهای گروهی. هدف از تشخیص تعامل، درک اتوماتیک کنش و واکنش دو شرکتکننده است. برخلاف فعالیتهای تک نفره که در آن کل تمرکز بر روی اجزای بدن یک شخص است، در تشخیص تعاملات دو نفره نزدیکی و مجاورت افراد باهم، موقعیت نسبی افراد و حالت بدن دو فرد در تشخیص الگوی تعامل مؤثر هستند. در بین روشهای موجود برای شناسایی کنش انسان، روشهای مبتنی بر یادگیری عمیق کارآیی مناسبتری دارند. در بین انواع دادهای مختلف، دنباله اسکلتی که از داده عمق استخراج میشود، شامل مجموعه کوچکی از موقعیت مفاصل بدن انسان است و میتواند به نحو موثری نشاندهنده نوع کنش باشد و در عین حال مستقل از پسزمینه، تغییرات روشنایی محیط و تغییرات زاویه دید باشد. به دلیل ماهیت سری زمانی دنباله اسکلتی، شناسایی کنش مبتنی بر دنباله اسکلتی، اغلب بر مبنای شبکههای عصبی بازگشتی و شبکههای LSTM خواهد بود. شبکههای عصبی کانولوشن برای شناسایی کنش مبتنی بر دادههای ویدئویی با مسئله ضعف مدل کردن وابستگیهای زمانی بلند مدت موجود در کل دنباله مواجه هستند. با در نظر گرفتن نوع نمایشی که به جای استخراج مستقیم اطلاعات زمانی بلند مدت، دنباله را به شکل تصاویر رنگی کد کند، استفاده از شبکههای کانولوشن برای شناسایی کنش امکانپذیر خواهد بود. روش پیشنهادی دو نوع ویژگی مکانی را بر مبنای فاصله اقلیدسی و فاصله برداری موقعیت مفاصل همچنین motion بین موقعیت دو مفصل در دو فریم با اختلاف 8 گام زمانی محاسبه کرده و در یک تصویر رنگی کد میکند. این نوع کد کردن، استفاده از شبکههای عصبی کانولوشن را برای شناسایی کنش امکانپذیر میکند. در این روش ابتدا ویژگیهایی از دنباله اسکلتی استخراج شده، سپس هر دسته ویژگی به عنوان ورودی به یک شبکه عصبی کانولوشن ارسال میشود. شبکه با استفاده از ورودیهای جدید وزنهای موجود در مدل از پیش آموزش دیده را تنظیم دقیق میکند و در نهایت در زمان تست خروجی شبکههای مختلف با یکدیگر ترکیب میشوند. روش پیشنهادی بر روی پایگاه داده NTU RGB+D آزمایش شده است و صحت 84.9% برای روش ارزیابی cross-view و صحت 78.9% برای روش ارزیابی cross-subject بهدست آمده است.
Abstract:
Recognition of human activities is one of the challenging tasks in computer vision and recently attracted increasing attention. Human activity can be categorized according to complexity as partial body action simple action interaction activity or group activity. In human-human interaction recognition the aim is automatically understand human actions and reaction. Compared with RGB-based counterparts, capturing human actions in 3D space due to its similarity to the real world can provide more information. Among the common modalities (RGB, depth, skeleton) skeleton data has the advantage of being invariant to view point, illumination changes and more robust to the noise. Due to time-series property of skeleton sequences, skeleton based action recognition methods are mostly based on recurrent neural networks and Long Short-Term Memory networks. Convolutional neural networks (CNNs) nowadays have achieved great success in image classification. However, for video action recognition, it lacks the capacity to model the long-term temporal dependency of the entire video. Instead of directly exploring the long-term temporal information from the skeleton sequences, we first represent the skeleton sequences as color images. With this representation, the long-term temporal structure of the skeleton sequence can be effectively learned by using deep convolutional neural networks. Proposed method extract two types of spatial features named join-joint distance (JJd) and joint-joint vector (JJv) and motion between two frames with 8 time-step gap into color images. Encoding skeleton sequences into an image made it possible to train a convolutional neural network on each type of images. the proposed method consists of three major components: extraction of three types of spatial-temporal features consist of three types of joint-joint vector, joint-joint distance and motion computation as the input of CNN, CNN training based on encoded images from the extracted features, and score fusion. The proposed method achieved state-of-the-art performance on NTU RGB+D action recognition dataset. The results show an accuracy of 84.9% for cross-view evaluation and an accuracy of 78.9% for cross-subject evaluation on this dataset.
مشخصات فردی |
|
نام و نام خانوادگی |
زهرا رستمی |
تاریخ تولد |
1/4/1371 |
پست الکترونیکی |
سوابق تحصیلی |
|||||
مقطع |
رشته |
گرایش |
فراغت از تحصیل |
محل تحصیل |
کشور/شهر |
لیسانس |
مهندسی کامپیوتر |
نرم افزار |
6/94 |
دانشگاه اصفهان |
ایران-اصفهان |
فوق لیسانس |
مهندسی کامپیوتر |
هوش مصنوعی |
10/96 |
بوعلی سینا |
ایران-همدان |
مهارت در زبان خارجی |
||||
زبان |
مکالمه |
خواندن |
نوشتن |
درک مطلب |
انگلیسی |
متوسط |
خوب |
خوب |
خوب |
مهارتهای تخصصی |
|
نام مهارت |
میزان تسلط |
آشنا به الگوریتم های یادگیری عمیق |
خوب |
آشنایی با زبانهای برنامهنویسی |
مسلط به برنامه نویسی MATLAB و Java آشنا به برنامه نویسی با زبان C++ و C# |
سوابق علمی-پژوهشی |
|
عنوان مقاله منتشر شده |
محل ارائه |
Skeleton-based action recognition using spatio-temporal features with convolutional neural networks |
4th International Conference on Knowledge-Based Engineering and Innovation (KBEI-2017) |
تشخیص کنش انسان در تصاویر RGBD مبتنی بر دادههای اسکلتی بدن با استفاده از شبکههای کانولوشن |
دومین کنفرانس ملی محاسبات نرم |