پالایش شرح گذاری مجموعه تصاویر با مقیاس بزرگ با یادگیری انتقالی در شبکه عصبی کانولوشنال عمیق

نوع مقاله: مقاله پژوهشی

نویسندگان

1 دانشجوی دکتری مهندسی کامپیوتر گرایش هوش مصنوعی، دانشکده برق و کامپیوتر، دانشگاه یزد

2 دانشکده مهندسی برق و کامپیوتر، دانشگاه یزد

چکیده

فرآیند پالایش شرح ­گذاری تصاویر، رویکردی موثر در بهبود بازیابی تصاویر مبتنی بر برچسب می‌باشد. در شبکه ­های اجتماعی و موتورهای جستجو بسیاری از تصاویر دارای تگ ­های مبهم، ناقص و بی­ ارتباط با محتوا هستند. وجود این تگ ­های غیرقابل اعتماد، موجب کاهش دقت بازیابی تصاویر می ­شود. از این­رو در دهه اخیر، الگوریتم ­هایی با عنوان پالایش تگ (TR) مطرح شده‌اند که به رفع نویز و غنی‌سازی برچسب‌های تصاویر می‌پردازند. به ­منظور دستیابی به نتایج بهینه در TR، استخراج ویژگی­ هایی از تصویر که توصیف مناسبی از محتوای دیداری تصویر داشته باشند، تاثیر مستقیمی بر دقت فرآیند TR دارد. از جمله چالش ­های عمده در فرآیند پالایش شرح ­گذاری تصاویر، رسیدن به توصیفی مناسب و مرتبط با محتوای تصاویر می­باشد. بدین منظور با توجه به کارآمدی فرآیند یادگیری عمیق در بسیاری از حوزه ­های پژوهشی، در این مقاله نیز به منظور استخراج ویژگی­ های کارآمد در تشابه دیداری تصاویر و ارتباط معنایی تصاویر با هم، از شبکه ­های عصبی کانولوشنال عمیق (DCNN) استفاده شده ­است. بهره ­گیری از فرآیند یادگیری انتقالی استفاده شده در DCNN مبتنی بر تصاویر ImageNet در توصیف و ایجاد ارتباط معنایی در مجموعه تصاویر با مقیاس بزرگ NUS-WIDE، بیانگر موثر بودن این رویکرد در کاربرد پالایش تگ تصاویر است.

کلیدواژه‌ها