در چند دهه گذشته، تحقیقات فراوانی در زمینه OCR یا نویسهخوان نوری انجام شده است. نویسهخوان نوری، یکی از راههای تبدیل تصاویر متنی به متن قابل ویرایش و شناسایی حروف و کلمات به صورت خودکار است. تشخیص مناطق متنی و غیرمتنی درون سند به آنالیز قالببندی اسناد شناخته میشود و یکی از گامهای کلیدی در روند تبدیل تصویر سند به متن قابل ویرایش است. جداسازی مناطق متنی و غیرمتنی درون یک تصویر از تاثیرگذارترین پیشپردازشهای ممکن در سیستمهای نویسهخوان نوری است. نبودن یک قالب یکسان در تمامی صفحات، وجود پسزمینههای پیچیده، نویزهای مختلف، کیفیت پایین، چرخش تصاویر و تصاویر چندین ستونه مانع از شناسایی درست مناطق حاوی متن میشوند. عدم تشخیص درست مناطق حاوی متن و بهتبع آن عدم تشخیص صحیح مختصات خطوط، تمامی بخشهای بعدی یک سیستم نویسهخوان نوری را دچار اخلال میکند. در این تحقیق، روشی نوین برای تشخیص مناطق متنی درون تصویر ارائه شده است. روش پیشنهادی، با بکارگیری از چندین روش مختلف و استفاده از سیستم رایگیری در میان آنها، مناطق متنی تصویر را استخراج مینماید که تا کنون در کارهای پیشین از آن بهره گرفته نشده است. روش پیشنهادی بر روی دادگانی از تصاویر با بیش از 950 صفحه مورد آموزش و آزمون قرار گرفته است که نتایج آزمون حاکی از ارائه دقت 97.94% در روش پیشنهادی است. مجموعه دادگان ارائه شده در این مقاله به صورت آزاد در دسترس است.