معرفی یک مجموعه داده برای کاربرد های درک و ناحیه بندی تصاویر اسناد فارسی

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشجوی کارشناسی ارشد بخش مهندسی کامپیوتر دانشگاه شهید باهنر کرمان

2 دانشکده فنی و مهندسی دانشگاه شهید باهنر کرمان

چکیده

وجود مجموعه ‌داده‌های تصویری نقش اساسی در زمینه تشخیص نویسه خوان نوری (OCR) و بازیابی اسناد دارد. علی‌رغم اینکه تا به امروز مجموعه ‌داده‏های تصویری زیادی با اشیا متفاوت در حوزه درک و ناحیه‌بندی اسناد غیرفارسی منتشر شده است، رسم الخط فارسی از این پیشرفت عقب ‌مانده است و تاکنون در زمینه درک و ناحیه‌بندی اسناد فارسی، مجموعه‌ دادگانی با دسترسی عمومی ارائه نشده است. از سوی دیگر، اگرچه زبان‌های فارسی و عربی شباهت‌های زیادی‏ دارند، اما تفاوت بین ساختار این دو زبان باعث می‌شود که سیستم‌های آموزش‌‏دیدهOCR با مجموعه ‌داده عربی، دقت مناسبی روی تصاویر اسناد فارسی نداشته باشند. در این مقاله، یک مجموعه داده‏ برای تصاویر اسناد فارسی معرفی می‏گردد که مشتمل بر 5598 تصویر است. تصاویر تهیه شده متعلق به روزنامه‌ها، کتاب‌های درسی، مقالات علمی، فایل‏های PDF فارسی، پایان‏نامه‏ها، انواع لوگو ایرانی، کتب دست‏نوشته‏ قدیمی و جزوات تایپ شده و دست‏نویس ریاضی هستند. در مجموعه داده معرفی شده، اشیا درون تصاویر به 6 گروه پاراگراف (متن)، شکل، جدول، لوگو، رابطه ریاضی و سرصفحه دسته‌بندی و برچسب‌گذاری شده‌اند. برای ارزیابی کارایی مجموعه تصویر پیشنهادی، سه روش شناخته ‏شده مبتنی بر یادگیری عمیق پیاده سازی و نتایج بر مبنای معیارهای مختلف گزارش شده است.

کلیدواژه‌ها