ارائه‌ی یک معماری جدید از شبکه‌های باور عمیق برای شناسایی عمل در ویدئو

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشجوی دکتری مهندسی کامپیوتر، دانشکده مهندسی برق و کامپیوتر، دانشگاه کاشان، کاشان، ایران

2 گروه کامپیوتر، دانشکده برق و کامپیوتر، دانشگاه کاشان، کاشان، ایران

چکیده

استفاده از یادگیری عمیق در حل مسایل مربوط به تحلیل داده‌های پیچیده و حجیم مانند ویدئوها گسترش یافته است. از جمله پردازش‌هایی که روی ویدیوها انجام می‌گیرد، تشخیص عمل‌های انسانی است که کاربردهای مهمی در حوزه نظارت خودکار، تعامل انسان با رایانه و بررسی رفتارهای سالمندان دارد. شبکه‌های باور عمیق از میان انواع مختلف شبکه‌های عمیق، به خاطر ویژگی‌های خاص خود، به ویژه توانایی همگرایی سریع نسبت به دیگر روش‌ها و ساختار یکسان لایه‌ها، مورد توجه قرار گرفته‌اند. لیکن، قدرت شبکه های باور عمیق پایه در پردازش داده‌های پیچیده که مبتنی بر زمان نیز هستند جای تامل دارد.
در این مقاله، یک روش بازگشتی جدید بر مبنای شبکه‌های باور عمیق ارائه شده است. در روش پیشنهادی، توانایی پردازش و تفسیر فریم‌های دوبعدی ویدئو و درک مفهوم زمان به وسیله پیاده‌سازی بازگشتی به شبکه‌های باور عمیق اضافه شده است. این روش قادر به درک مفاهیم کوتاه مدت زمانی با استفاده از ماشین‌های بولتزمن محدود و بلند مدت زمانی بر مبنای پیاده‌سازی بازگشتی می‌باشد. روش پیشنهادی بر روی سه پایگاه داده شناخته‌شده در این حوزه با نام‌های KTH، UCF و HMDB51 ارزیابی شده و به ترتیب به دقت‌های برابر با 95.02، 93.14 و 74.28 دست یافته و با سایر روش‌های محبوب در شرایط مختلف مقایسه گردیده است.

کلیدواژه‌ها