آزمایشگاه هوش و بینایی ربات، گروه مهندسی کامپیوتر، دانشگاه بوعلی سینا
چکیده
توصیف تصویر یک زمینه تحقیقاتی بین رشته ای در بینایی ماشین و پردازش زبان طبیعی است. بسیاری از روشهای پیشنهاد شده برای تولید توصیف تصویر از چارچوب رمزگذار - رمزگشا پیروی کردهاند. به این ترتیب هر کلمه بر اساس ویژگیهای تصویر و کلمات تولید شده قبلی تولید میشود. اخیراً سازوکار توجه، که میتواند با ایجاد نقشه فضایی، مناطق مرتبط تصویر با هر کلمه را برجسته کند، به طور گسترده در تحقیقات استفاده شده است. در این مقاله، ما یک روش جدید را پیشنهاد کردهایم که چارچوب رمزگذار-رمزگشا را با سازوکار توجه و سازوکار توجه بر توجه ادغام کرده است. بخش رمزگذار مدل شامل چند بخش ResNet، Attention-LSTM، Multi Head Attention و Attention on Attention است. از ResNet برای استخراج ویژگی های کلی تصویر استفاده شده است. ایهی Language-LSTMمسئولیت رمزگشایی را بر عهده دارد. سازوکار توجه از شواهد محلی برای افزایش نمایش ویژگیها و استدلال در تولید توصیفات تصویری بهره برده و سازوکار توجه بر توجه میتواند روابط اشیای داخل تصاویر را بهخوبی درک کند. این روش پیشنهادی توانسته است بر روی تصاویر مجموعههای داده Flickr8k و MSCOCOتوصیفهای بهتری را نسبت به روشهای موفق موجود ارائه دهد. همچنین بر اساس معیارهای ارزیابی METEOR، ROUGEعملکرد توصیف تصویر را بهبود داده است.
فامیل ستاری, زهرا, ختن لو, حسن, & علیقارداش, الهام. (1402). توصیف تصاویر مبتنی بر شبکه عمیق رمزگذار-رمزگشا و سازوکار توجه بر توجه. مجله بینایی ماشین و پردازش تصویر, 10(2), 77-88.
MLA
زهرا فامیل ستاری; حسن ختن لو; الهام علیقارداش. "توصیف تصاویر مبتنی بر شبکه عمیق رمزگذار-رمزگشا و سازوکار توجه بر توجه". مجله بینایی ماشین و پردازش تصویر, 10, 2, 1402, 77-88.
HARVARD
فامیل ستاری, زهرا, ختن لو, حسن, علیقارداش, الهام. (1402). 'توصیف تصاویر مبتنی بر شبکه عمیق رمزگذار-رمزگشا و سازوکار توجه بر توجه', مجله بینایی ماشین و پردازش تصویر, 10(2), pp. 77-88.
VANCOUVER
فامیل ستاری, زهرا, ختن لو, حسن, علیقارداش, الهام. توصیف تصاویر مبتنی بر شبکه عمیق رمزگذار-رمزگشا و سازوکار توجه بر توجه. مجله بینایی ماشین و پردازش تصویر, 1402; 10(2): 77-88.