1404/02/01
حسن ختن لو

حسن ختن لو

مرتبه علمی: استاد
ارکید:
تحصیلات: دکترای تخصصی
اسکاپوس: 14015911600
دانشکده: دانشکده فنی و مهندسی
نشانی:
تلفن:

مشخصات پژوهش

عنوان
تشخیص تعامل انسان در ویدیو با استفاده از شبکه های عصبی عمیق
نوع پژوهش
پایان نامه
کلیدواژه‌ها
تشخیص تعامل در ویدیو، شبکه عصبی عمیق
سال 1398
پژوهشگران مه لقا افراسیابی(دانشجو)، حسن ختن لو(استاد راهنما)، محرم منصوری زاده(استاد مشاور)

چکیده

چکیده: بسیاری از ویدیوهایی که انسان ها را به تصویر می کشد، دارای فعالیت هایی است که بین انسان ها وجود دارد و نشان گر فرهنگ و رابطه بین آن هاست. با پیشرفت تشخیص کنش های انسان در ویدیو، محققان به شناخت و پیش بینی تعامل انسان- انسان به طور خودکار پرداخته اند. هدف از پیش بینی تعامل تشخیص زود هنگام تعامل قبل از انجام کامل آن است. که در بازیابی ویدیو بر اساس محتوا، تعامل انسان و کامپیوتر و امنیت و نظارت کاربرد دارد. اما این موضوع هنوز یک مسئله چالش برانگیز است، که این چالش می تواند ناشی ازتغییرات تصویر، نحوه اجرای متفاوت افراد در انجام یک تعامل و .. باشد. روش های موجود در این حوزه بر اساس ویژگی به ویژگی های دستی و ویژگی های یادگرفته شده تقسیم می شوند. ویژگی های یاد گرفته شده تا حدودی چالش های تنظیمات ضبط، ظاهر فرد، اندازه تصویر و نقطه دید را کاهش داده اند. انتظار ما این است که استفاده از استخراج ویژگی یادگرفته شده در مدل های پیشنهادی می تواند چالش ها را تا حد امکان کاهش دهد. در اولین مدل پیشنهادی به نام Dual-Actor CNN از دو شبکه همسان برای استخراج ویژگی های دو فرد در حال تعامل استفاده شده است. که این مدل به علت استفاده از شبکه های همسان و به اشتراک گذاری وزن ها باعث می شود چالش جهت و نقطه دید انجام کنش حل شود. در روش پیشنهادی دیگر مسئله در قالب سری زمانی به نام DTW-CNN مدل می شود، فرض بر این است که استفاده از روش روش پیچ وتاب زمانی پویا بتواند بر چالش نرخ زمان اجرای تعامل غلبه کند. از آنجایی که انجام هر کنش یا تعامل ماهیتی فازی دارد و نمی-توان حرکت مشخصی برای تعریف آن در نظر گرفت، استفاده از روش فازی می تواند باعث افزایش دقت تشخیص تعامل شود، در مدل پیشنهادی Fuzzy-Relation CNN از حرکات افراد در ویدیو دو تصویر فازی ساخته می شود که شامل حرکات افراد در حال تعامل است. این تصاویر ایجاد شده اطلاعات پیش-زمینه و نا مرتبط به تعامل را حذف می کند و تغییرات مهم حرکت افراد را با توجه به زمان آن را نگه میدارد. سپس از تصویر ایجاد شده ویژگی استخراج می شود. سه مدل بر روی مجموعه داده های TV human interaction، BIT و UT ارزیابی شده اند. نتایج نشان می دهد که دقت این مدل ها برای پیش-بینی تعامل نسبت به روش های پیشین بالاتر بوده و در بین این سه مدل روش Dual-Actor دقت بالاتری داشته است.