: پیشبینی تعامل در ویدئو یکی از موضوعات فعال در بینایی کامپیوتر است، که هدف آن پیشبینی تعامل قبل از انجام کامل آن است. این مو ضوع به دلیل چالشهای موجود در این زمینه هنوز مورد توجه ا ست. در این مقاله یک شبکه ع صبی عمیق برای پیشبینی تعامل با ا ستفاده از روابط فازی و شار نوری ارائهشده ا ست. نوآوری این روش ایجاد دو تصویر فازی از یک ویدئو ا ست. این تصاویر فازی بر مبنای گرادیان و شار نوری ایجاد میشود. توابع عضویت فازی مناسب برای روابط مکانی بین افراد در حال تعامل در تصاویر گرادیان و شار نوری ایجاد شده است. از طرفی یک تابع ع ضویت فا صله برای ارزشدهی به فریمها و یک تابع ع ضویت فا صله برای ارزشدهی به ناحیهی بین افراد در حال تعامل تعریف شده ا ست. سپس ویژگیهای مناسب مکانی-زمانی از این تصاویر با استفاده از معماری شبکه عصبی کانولوشن استخراجشده است. نتایج این روش بر روی دو مجموعه داده استاندارد تشخیص تعامل، BIT و UT ارزیابی شده است. نتایج نشان میدهد ایجاد تصاویر فازی و استخراج ویژگیهای عمیق از آن تصاویر باعث افزایش دقت پیشبینی تعامل نسبت به روشهای پیشین شده است.