شناسایی کنش انسان یکی از موضوعات پر کاربرد و جدید در حوزه یادگیری و بینایی ماشین است که با چالش های فراوانی مواجه است. روش های زیادی برای شناسایی کنش انسان وجود که در بین آن ها روش های مبتنی بر یادگیری عمیق کارآیی مناسب تری دارند. در بین انواع داده ای مختلف، دنباله اسکلتی که از روی داده عمق استخراج می شود و شامل مجموعه کوچکی از موقعیت مفاصل بدن انسان است به نحو موثری می تواند نشان دهنده نوع کنش باشد و در عین حال نسبت به پس زمینه، تغییرات روشنایی محیط و تغییرات زاویه دید مستقل خواهد بود. به دلیل ماهیت سری زمانی دنباله اسکلتی، شناسایی کنش مبتنی بر دنباله اسکلتی اغلب بر مبنای شبکه های عصبی بازگشتی و شبکه های LSTM خواهد بود. شبکه های عصبی کانولوشن برای شناسایی کنش مبتنی بر داده های ویدئویی با مسئله ضعف مدل کردن وابستگی های زمانی بلند مدت موجود در کل دنباله ویدئویی مواجه هستند. با در نظر گرفتن نوع نمایشی که به جای استخراج مستقیم اطلاعات زمانی بلند مدت در دنباله اسکلتی، دنباله را به شکل تصاویر رنگی کد کند، استفاده از شبکه های کانولوشن برای شناسایی کنش امکان پذیر خواهد بود. روش پیشنهادی دو نوع ویژگی مکانی را بر مبنای فاصله اقلیدسی و فاصله برداری موقعیت مفاصل همچنین motion بین موقعیت دو مفصل در دو فریم با اختلاف 8 گام زمانی محاسبه کرده و در یک تصویر رنگی کد می کند. این نوع کد کردن، استفاده از شبکه های عصبی کانولوشن را برای شناسایی کنش امکان پذیر می کند. در این روش ابتدا ویژگی هایی از دنباله اسکلتی نظیر کنش استخراج شده، سپس هر دسته ویژگی به عنوان ورودی به یک شبکه عصبی کانولوشن ارسال می شود. شبکه با استفاده از ورودی های جدید وزن های موجود در مدل از پیش آموزش دیده را تنظیم دقیق می کند و در نهایت در زمان تست خروجی شبکه های مختلف با یکدیگر ترکیب می شوند. روش پیشنهادی بر روی پایگاه داده NTU RGB+D آزمایش شده است و صحت 84.9% برای پروتکل ارزیابی cross-view و صحت 78.9% برای ارزیابی cross-subject به دست آمده است.