توصیف تصاویر مبتنی بر شبکه عمیق رمزگذار-رمزگشا و سازوکار توجه بر توجه

نوع مقاله : مقاله پژوهشی

نویسندگان

آزمایشگاه هوش و بینایی ربات، گروه مهندسی کامپیوتر، دانشگاه بوعلی سینا

چکیده

توصیف تصویر یک زمینه تحقیقاتی بین رشته ای در بینایی ماشین و پردازش زبان طبیعی است. بسیاری از روش‌های پیشنهاد شده برای تولید توصیف تصویر از چارچوب رمزگذار - رمزگشا پیروی کرده‌اند. به این ترتیب هر کلمه بر اساس ویژگی‌های تصویر و کلمات تولید شده قبلی تولید می‌شود. اخیراً سازوکار توجه، که میتواند با ایجاد نقشه فضایی، مناطق مرتبط تصویر با هر کلمه را برجسته ‌کند، به طور گسترده در تحقیقات استفاده شده است. در این مقاله، ما یک روش جدید را پیشنهاد کرده‌ایم که چارچوب رمزگذار-رمزگشا را با سازوکار توجه و سازوکار توجه بر توجه ادغام کرده‌ است. بخش رمزگذار مدل شامل چند بخش ResNet، Attention-LSTM، Multi Head Attention و Attention on Attention  است. از ResNet برای استخراج ویژگی های کلی تصویر استفاده شده است. ایه‌ی Language-LSTMمسئولیت رمزگشایی را بر عهده دارد. سازوکار توجه از شواهد محلی برای افزایش نمایش ویژگی‌ها و استدلال در تولید توصیفات تصویری بهره برده و سازوکار توجه بر توجه می‌‌تواند روابط اشیای داخل تصاویر را به‌خوبی درک کند. این روش پیشنهادی توانسته است بر روی تصاویر مجموعه‌های داده Flickr8k و MSCOCOتوصیف‌های بهتری را نسبت به روشهای موفق موجود ارائه دهد. همچنین بر اساس معیارهای ارزیابی METEOR، ROUGEعملکرد توصیف تصویر را بهبود داده است.

کلیدواژه‌ها