زهرا رستمی

زهرا رستمی


تاریخ انتشار : Publish : نسخه قابل چاپ Print


دانشکده  مهندسی

گروه آموزشی  کامپیوتر

اطلاعیه دفاع از طرح پیشنهادی پایان نامه کارشناسی ارشد در رشته مهندسی کامپیوتر

عنوان:

شناسایی کنش و تعامل انسان-انسان در تصاویر RGB-D با بکارگیری تکنیک‌های یادگیری ماشین

 

استاد راهنما:

دکتر حسن ختن لو

 

اساتید ممتحن:

دکتر محرم منصوری زاده

دکتر حاتم عبدلی

 

پژوهشگر:

زهرا رستمی

تاریخ دفاع:

شنبه 30/10/96 ساعت 16

مکان:

سمینار 2 (سالن مهندس مرحوم خانمحمدی)

Bu-Ali Sina University

 

Faculty of Engineering

 

Department of Computer Engineering

 

Thesis submitted for Master of Science in computer Engineering-Artificial Intelligence

 

Title:

Human action and interaction recognition in RGB-D images using machine learning techniques

 

Supervisor:

Dr.Hassan Khotanlou

 

Judges:

Dr.Muharram Mansoorizadeh

Dr.Hatam Abdoli

 

Author:

 Zahra Rostami

 

January 20, 2018

 

 

چکیده:

شناسایی فعالیت انسان یکی از موضوعات پر کاربرد و جدید در حوزه یادگیری و بینایی ماشین است که به دلیل مسائلی نظیر تغییرات شرایط نوری، تغییرات زاویه دید، پس‌زمینه درهم ریخته و ... با چالش‌های فراوانی مواجه است. در یک دسته‌بندی کلی می‌توان فعالیتهای انسان را به 4 دسته تقسیم کرد که عبارت‌اند از: فعالیتهای تک نفره(کنش)، تعامل انسان با شیء، تعامل انسان با انسان و فعالیتهای گروهی. هدف از تشخیص تعامل، درک اتوماتیک کنش و واکنش دو شرکت‌کننده است. برخلاف فعالیتهای تک ‌نفره که در آن کل تمرکز بر روی اجزای بدن یک شخص است، در تشخیص تعاملات دو نفره نزدیکی و مجاورت افراد باهم، موقعیت نسبی افراد و حالت بدن دو فرد در تشخیص الگوی تعامل مؤثر هستند. در بین روش‌های موجود برای شناسایی کنش انسان، روشهای مبتنی بر یادگیری عمیق کارآیی مناسب‌تری دارند. در بین انواع داده‌ای مختلف، دنباله اسکلتی که از داده عمق استخراج می‌شود، شامل مجموعه کوچکی از موقعیت مفاصل بدن انسان است و می‌تواند به نحو موثری نشان‌دهنده نوع کنش باشد و در عین حال مستقل از پس‌زمینه، تغییرات روشنایی محیط و تغییرات زاویه دید باشد. به دلیل ماهیت سری زمانی دنباله اسکلتی، شناسایی کنش مبتنی بر دنباله اسکلتی، اغلب بر مبنای شبکه‌های عصبی بازگشتی و شبکه‌های LSTM خواهد بود. شبکه‌های عصبی کانولوشن برای شناسایی کنش مبتنی بر داده‌های ویدئویی با مسئله ضعف مدل کردن وابستگی‌های زمانی بلند مدت موجود در کل دنباله مواجه هستند. با در نظر گرفتن نوع نمایشی که به جای استخراج مستقیم اطلاعات زمانی بلند مدت، دنباله را به شکل تصاویر رنگی کد کند، استفاده از شبکه‌های کانولوشن برای شناسایی کنش امکان‌پذیر خواهد بود. روش پیشنهادی دو نوع ویژگی مکانی را بر مبنای فاصله اقلیدسی و فاصله برداری موقعیت مفاصل همچنین motion بین موقعیت دو مفصل در دو فریم با اختلاف 8 گام زمانی محاسبه کرده و در یک تصویر رنگی کد می‌کند. این نوع کد کردن، استفاده از شبکه‌های عصبی کانولوشن را برای شناسایی کنش امکان‌پذیر می‌کند. در این روش ابتدا ویژگی‌هایی از دنباله اسکلتی استخراج شده، سپس هر دسته ویژگی به عنوان ورودی به یک شبکه عصبی کانولوشن ارسال می‌شود. شبکه با استفاده از ورودی‌های جدید وزن‌های موجود در مدل از پیش آموزش دیده را تنظیم دقیق می‌کند و در نهایت در زمان تست خروجی شبکههای مختلف با یکدیگر ترکیب میشوند. روش پیشنهادی بر روی پایگاه داده NTU RGB+D آزمایش شده است و صحت 84.9% برای روش ارزیابی cross-view و صحت 78.9% برای روش ارزیابی cross-subject به‌دست آمده است.

 

 

 

 

 

 

 

 

Abstract:

Recognition of human activities is one of the challenging tasks in computer vision and recently attracted increasing attention. Human activity can be categorized according to complexity as partial body action simple action interaction activity or group activity.  In human-human interaction recognition the aim is automatically understand human actions and reaction. Compared with RGB-based counterparts, capturing human actions in 3D space due to its similarity to the real world can provide more information. Among the common modalities (RGB, depth, skeleton) skeleton data has the advantage of being invariant to view point, illumination changes and more robust to the noise. Due to time-series property of skeleton sequences, skeleton based action recognition methods are mostly based on recurrent neural networks and Long Short-Term Memory networks. Convolutional neural networks (CNNs) nowadays have achieved great success in image classification. However, for video action recognition, it lacks the capacity to model the long-term temporal dependency of the entire video. Instead of directly exploring the long-term temporal information from the skeleton sequences, we first represent the skeleton sequences as color images. With this representation, the long-term temporal structure of the skeleton sequence can be effectively learned by using deep convolutional neural networks. Proposed method extract two types of spatial features named join-joint distance (JJd) and joint-joint vector (JJv) and motion between two frames with 8 time-step gap into color images. Encoding skeleton sequences into an image made it possible to train a convolutional neural network on each type of images. the proposed method consists of three major components: extraction of three types of spatial-temporal features consist of three types of joint-joint vector, joint-joint distance and motion computation as the input of CNN, CNN training based on encoded images from the extracted features, and score fusion. The proposed method achieved state-of-the-art performance on NTU RGB+D action recognition dataset. The results show an accuracy of 84.9% for cross-view evaluation and an accuracy of 78.9% for cross-subject evaluation on this dataset.

 

 

 

مشخصات فردی

نام و نام خانوادگی

زهرا رستمی

تاریخ تولد

1/4/1371

پست الکترونیکی

z.rostami94@basu.ac.ir

 

 

 

سوابق تحصیلی

مقطع

رشته

گرایش

فراغت از تحصیل

محل تحصیل

کشور/شهر

لیسانس

مهندسی کامپیوتر

نرم افزار

6/94

دانشگاه اصفهان

ایران-اصفهان

فوق لیسانس

مهندسی کامپیوتر

هوش مصنوعی

10/96

بوعلی سینا

ایران-همدان

 

 

مهارت در زبان خارجی

زبان

مکالمه

خواندن

نوشتن

درک مطلب

انگلیسی

متوسط

خوب

خوب

خوب

 

 

مهارت‌های تخصصی

نام مهارت

میزان تسلط

آشنا به الگوریتم های یادگیری عمیق

خوب

آشنایی با زبان‌های برنامه‌نویسی

مسلط به برنامه نویسی MATLAB و Java

آشنا به برنامه نویسی با زبان C++ و C#

 

 

سوابق علمی-پژوهشی

عنوان مقاله منتشر شده

محل ارائه

Skeleton-based action recognition using spatio-temporal features with convolutional neural networks

4th International Conference on Knowledge-Based Engineering and Innovation (KBEI-2017)

تشخیص کنش انسان در تصاویر RGBD مبتنی بر داده‌های اسکلتی بدن با استفاده از شبکه‌های کانولوشن

دومین کنفرانس ملی محاسبات نرم