اخیراً، شمارش تعداد افراد برای صحنه های ویدئویی پر ازدحام به دلیل کاربردهای گسترده آن (مانند نظارت تصویری، امنیت عمومی و تحلیل محتوای چندرسانه ای) با استفاده از روش های مبتنی بر یادگیری عمیق مورد توجه قرارگرفته است. عمده روش ها روی تصاویر ثابت تمرکز داشته اند و تعداد بسیار کمتری بر روی شمارش جمعیت مبتنی بر ویدئو تمرکز می کنند. با این وجود این مدل ها به دلیل عدم توجه به همبستگی زمانی، داده های محدود، محیط متغیر، انسداد و سایر موارد قابلیت تعمیم و کارایی مناسب برای صحنه های طبیعی را ندارند ضمن اینکه ممکن است به دلیل کمبود و عدم تنوع داده دچار بیش برازش هم باشند. این پژوهش، نشان می دهد تخمین جریان افراد در مکان های تصویر بین تصاویر متوالی و استنتاج تراکم افراد از این جریان ها بدون نیاز به معماری پیچیده تر، عملکرد را به طور قابل توجهی افزایش می دهد. علاوه بر این، افزودن یک شبکه عصبی توجه مکانی-زمانی برای تخمین تعداد عابران پیاده نیز بررسی شده است.