تشخیص فعالیت انسان در تصاویر ویدیویی با روش های یادگیری ماشین توسعه یافته

نوع: Type: پایان نامه

مقطع: Segment: کارشناسی ارشد

عنوان: Title: تشخیص فعالیت انسان در تصاویر ویدیویی با روش های یادگیری ماشین توسعه یافته

ارائه دهنده: Provider: کبری پورلفته - مهندسی کامپیوتر

اساتید راهنما: Supervisors: جناب دکتر حسن ختن لو- جناب دکتر محرم منصوری زاده

اساتید مشاور: Advisory Professors:

اساتید ممتحن یا داور: Examining professors or referees: جناب دکتر عباس رمضانی - سرکار خانم دکتر راضیه ترکمنی

زمان و تاریخ ارائه: Time and date of presentation: ساعت 17 - 1404/7/30

مکان ارائه: Place of presentation: آمفی تئاتر دانشکده مهندسی

چکیده: Abstract: تشخیص فعالیت‌های انسانی در ویدئو یکی از مسائل اساسی در حوزه بینایی کامپیوتری به شمار می‌رود. این مسئله به‌واسطه‌ی پیچیدگی‌های رفتاری انسان و همچنین محدودیت‌های مدل‌های تک‌وجهی، همواره با چالش‌های متعددی مواجه بوده است.در این پژوهش، یک معماری چندوجهی نوین برای بهبود تشخیص فعالیت، به‌ویژه در شرایطی که نمونه‌ای از فعالیت در داده‌های آموزشی وجود ندارد (zero-shot)، ارائه شده است. روش پیشنهادی بر پایه‌ی مدل قدرتمند X-CLIP بنا شده است که خود، نسخه‌ای توسعه‌یافته از مدل تصویر- زبان CLIP برای درک ویدئو محسوب می‌شود. در این معماری، علاوه‌بر ورودی تصویری، یک شاخه‌ی پردازش صوتی نیز افزوده شده است. برای ادغام مؤثر اطلاعات شنیداری و بصری، از سازوکاری برای الحاق توکن‌های صوتی و تصویری استفاده شده تا این دو نوع داده به‌صورت یک توالی یکپارچه مدل‌سازی شوند سپس برای یادگیری بهتر روابط میان صدا و تصویر و استخراج الگوهای زمانی مشترک، از یک ترنسفورمر زمانی سبک با عنوان MIT بهره گرفته شده است. این طراحی به گونه‌ای صورت گرفته که بدون استفاده از ماژول‌های پیچیده و سنگین، بتواند ترکیب مؤثری از ویژگی‌های صوتی و تصویری را در سطح توکن‌ها انجام دهد. برای آموزش و ارزیابی مدل، ابتدا تنظیم دقیق آن با استفاده از مجموعه‌داده Kinetics-400 انجام شد و سپس عملکرد مدل در شرایط صفر-شات با استفاده از مجموعه داده UCF101 مورد آزمایش قرار گرفت. همچنین، برای مقابله با عدم توازن داده‌ها، از تکنیک‌های افزایش داده برای متوازن‌سازی مجموعه¬داده آموزشی بهره گرفته شد. نتایج تجربی نشان می‌دهد که ترکیب جریان صوتی با ویدئو باعث بهبود عملکرد مدل پایه، به‌ویژه در دسته‌هایی که وابستگی معنایی به صدا دارند (مانند نواختن ساز یا صحبت‌کردن)، شده است. از سوی دیگر، طراحی ساده و سبک این معماری، سبب شده تا عملکرد مدل در ویدئوهای بدون صدا نیز پایدار و قابل‌قبول باقی بماند. در مجموع، این پژوهش نشان می‌دهد که همجوشی سبک و منسجم اطلاعات صوتی و تصویری بر پایه توکن‌های مشترک، می‌تواند رویکردی مؤثر و قابل گسترش برای بهبود سیستم‌های تشخیص فعالیت انسانی در شرایط واقعی باشد.