توصیف محتوای تصویر به صورت خودکار توسط ماشین یک مشکل چالش برانگیز در بینایی کامپیوتر است و هدف آن تولید توضیحات قابل درک توسط کامپیوتر برای تصاویر میباشد. استفاده از شبکه های عصبی پیچشی (CNN) نقش مهمی در زمینه توصیف تصاویر ایفا کرده است. با این حال، در طول فرآیند تولید توصیفهای مرتبط با تصویر دو چالش عمده برای CNN وجود دارد که عبارتند از: عدم توجه آنها به روابط و ساختارهای سلسله مراتبی مکانی بین اشیای درون تصویر، و عدم ثبات در مقابل تغییرات چرخشی تصاویر. به منظور رفع این چالش ها این مقاله با بهره گیری از یک شبکه کپسولی بهبود یافته، به توصیف محتوای تصویر با استفاده از پردازش زبان طبیعی میپردازد. شبکه کپسولی با درنظر گرفتن موقعیت مکانی اشیای درون تصویر نسبت به یکدیگر، اطلاعات مربوط به محتوای تصویر را ارائه میدهد. یک کپسول شامل مجموعهای از نورونها است که پارامترهای وضعیت اشیا درون تصویر مانند سایز، جهت، مقیاس و روابط اشیا نسبت به هم را در نظر می گیرند. این کپسول ها تمرکز ویژهای بر استخراج ویژگی های معنادار برای استفاده در فرآیند تولید توضیحات مرتبط برای مجموعه ای معین از تصاویر دارند. آزمایشهای کیفی روی مجموعه دادههای MS-COCO با بهره گیری از شبکه کپسولی و روش تعبیه سازی ELMo، منجر به بهبود 2 تا 5 درصدی معیارهای ارزیابی شده، در مقایسه با مدلهای زیرنویس تصویر موجود شده است.
جوانمردی, شیما, لطیف, علی محمد, & صادقی, محمدتقی. (1402). توصیف محتوای تصاویر به صورت خودکار با بکارگیری شبکه عصبی کپسولی و روش تعبیه سازی ELMo. مجله بینایی ماشین و پردازش تصویر, 10(1), 75-91.
MLA
شیما جوانمردی; علی محمد لطیف; محمدتقی صادقی. "توصیف محتوای تصاویر به صورت خودکار با بکارگیری شبکه عصبی کپسولی و روش تعبیه سازی ELMo". مجله بینایی ماشین و پردازش تصویر, 10, 1, 1402, 75-91.
HARVARD
جوانمردی, شیما, لطیف, علی محمد, صادقی, محمدتقی. (1402). 'توصیف محتوای تصاویر به صورت خودکار با بکارگیری شبکه عصبی کپسولی و روش تعبیه سازی ELMo', مجله بینایی ماشین و پردازش تصویر, 10(1), pp. 75-91.
VANCOUVER
جوانمردی, شیما, لطیف, علی محمد, صادقی, محمدتقی. توصیف محتوای تصاویر به صورت خودکار با بکارگیری شبکه عصبی کپسولی و روش تعبیه سازی ELMo. مجله بینایی ماشین و پردازش تصویر, 1402; 10(1): 75-91.