مروری بر روش های یادگیری ژرف در بازشناسی نوری نویسه‌ها با تاکید بر رسم الخط های فارسی، عربی و اردو

نوع مقاله : مقاله مروری

نویسندگان

1 گروه پژوهشی سیستم های هوشمند واژه، کرمان، ایران

2 دانشگاه شهید باهنر کرمان، بخش مهندسی برق

چکیده

در سال‌های اخیر موفقیت شبکه‌های عصبی کانولوشنی ژرف در تشخیص و بازشناسی اشیا سبب جلب توجه بسیاری از حوزه‌های مختلف یادگیری ماشین، از جمله حوزه بازشناسی نوری نویسه­ها، به این مقوله شده است. یکی از چالش‌های مهم این حوزه، استخراج ویژگی‌های متمایزکننده و حاوی اطلاعات است. غالب روش‌هایی که در سال های گذشته در بازشناسی نوری حروف مطرح شدند، مبتنی بر ویژگی‌های دستی هستند که توانایی تعمیم‌پذیری محدودی دارند. امروزه به کمک شبکه‌های کانولوشنی می‌توان استخراج ویژگی را به صورت خودکار و با کارایی فوق العاده‌ای به ماشین سپرد و بازشناسی حروف جدا، ارقام و لیگاتورها را بادقت بالایی انجام داد.  همچنین، ساختارهایی بر مبنای ترکیب شبکه های کانولوشنی و بازگشتی  پیشنهاد شده اند، که می توانند بدون نیاز به جداسازی حروف، بازشناسی را انجام دهند. این رویکرد در سال‌های اخیر مورد توجه زیاد محققان بینایی ماشین قرار گرفته است؛ چرا که به کمک این شبکه‌ها می‌توان به شکل مستقل از زبان، بازشناسی را تنها با توجه به مجموعه آموزشی انجام داد. هدف از این مقاله، مروری بر کارهای انجام شده با  این رویکرد نوین در حوزه بازشناسی نوری نویسه‌ها است. در ادامه، پس از بیان مسئله و مروری مختصر بر روش‌های قبل، روش‌های مبتنی بر الگوریتم های ژرف و ویژگی‌های آن‌ها با تفصیل بیشتری ارزیابی می­شوند. از آنجا که تاکید این مقاله روی تحقیقات بازشناسی نوری حروف در رسم الخط های پیوسته، نظیر فارسی، عربی و اردو است، کارهای انجام شده در این حوزه ها نیز در بخشی جداگانه مرور می شوند. همچنین، ضمن معرفی مجموعه­های داده معروف برای کاربردهای مختلف و مروری بر معیارهای ارزیابی روش های بازشناسی نوری حروف، مهم ترین نرم افزارهای اختصاصی و بسته های نرم افزاری متن بازی که برای بازشناسی حروف استفاده می­شوند، معرفی خواهند شد.

کلیدواژه‌ها