تشخیص فعالیت انسان در تصاویر ویدیویی با روش های یادگیری ماشین توسعه یافته - دانشکده فنی و مهندسی
تشخیص فعالیت انسان در تصاویر ویدیویی با روش های یادگیری ماشین توسعه یافته
نوع: Type: پایان نامه
مقطع: Segment: کارشناسی ارشد
عنوان: Title: تشخیص فعالیت انسان در تصاویر ویدیویی با روش های یادگیری ماشین توسعه یافته
ارائه دهنده: Provider: کبری پورلفته - مهندسی کامپیوتر
اساتید راهنما: Supervisors: جناب دکتر حسن ختن لو- جناب دکتر محرم منصوری زاده
اساتید مشاور: Advisory Professors:
اساتید ممتحن یا داور: Examining professors or referees: جناب دکتر عباس رمضانی - سرکار خانم دکتر راضیه ترکمنی
زمان و تاریخ ارائه: Time and date of presentation: ساعت 17 - 1404/7/30
مکان ارائه: Place of presentation: آمفی تئاتر دانشکده مهندسی
چکیده: Abstract: تشخیص فعالیتهای انسانی در ویدئو یکی از مسائل اساسی در حوزه بینایی کامپیوتری به شمار میرود. این مسئله بهواسطهی پیچیدگیهای رفتاری انسان و همچنین محدودیتهای مدلهای تکوجهی، همواره با چالشهای متعددی مواجه بوده است.در این پژوهش، یک معماری چندوجهی نوین برای بهبود تشخیص فعالیت، بهویژه در شرایطی که نمونهای از فعالیت در دادههای آموزشی وجود ندارد (zero-shot)، ارائه شده است. روش پیشنهادی بر پایهی مدل قدرتمند X-CLIP بنا شده است که خود، نسخهای توسعهیافته از مدل تصویر- زبان CLIP برای درک ویدئو محسوب میشود. در این معماری، علاوهبر ورودی تصویری، یک شاخهی پردازش صوتی نیز افزوده شده است. برای ادغام مؤثر اطلاعات شنیداری و بصری، از سازوکاری برای الحاق توکنهای صوتی و تصویری استفاده شده تا این دو نوع داده بهصورت یک توالی یکپارچه مدلسازی شوند سپس برای یادگیری بهتر روابط میان صدا و تصویر و استخراج الگوهای زمانی مشترک، از یک ترنسفورمر زمانی سبک با عنوان MIT بهره گرفته شده است. این طراحی به گونهای صورت گرفته که بدون استفاده از ماژولهای پیچیده و سنگین، بتواند ترکیب مؤثری از ویژگیهای صوتی و تصویری را در سطح توکنها انجام دهد. برای آموزش و ارزیابی مدل، ابتدا تنظیم دقیق آن با استفاده از مجموعهداده Kinetics-400 انجام شد و سپس عملکرد مدل در شرایط صفر-شات با استفاده از مجموعه داده UCF101 مورد آزمایش قرار گرفت. همچنین، برای مقابله با عدم توازن دادهها، از تکنیکهای افزایش داده برای متوازنسازی مجموعه¬داده آموزشی بهره گرفته شد. نتایج تجربی نشان میدهد که ترکیب جریان صوتی با ویدئو باعث بهبود عملکرد مدل پایه، بهویژه در دستههایی که وابستگی معنایی به صدا دارند (مانند نواختن ساز یا صحبتکردن)، شده است. از سوی دیگر، طراحی ساده و سبک این معماری، سبب شده تا عملکرد مدل در ویدئوهای بدون صدا نیز پایدار و قابلقبول باقی بماند. در مجموع، این پژوهش نشان میدهد که همجوشی سبک و منسجم اطلاعات صوتی و تصویری بر پایه توکنهای مشترک، میتواند رویکردی مؤثر و قابل گسترش برای بهبود سیستمهای تشخیص فعالیت انسانی در شرایط واقعی باشد.