قرار گرفتن شیء در پسزمینه باعث پیچیدهشدنِ مسئلهی بازشناسی اشیاء و درنتیجه افتِ عملکردِ مدلهای محاسباتی بینایی میشود. درحالیکه انسانها علیرغم این پیچیدگی، شیء هدف را با دقت و سرعت زیادی که متأثر از ارتباطات جانبی و بازخورد از نواحی بالاتر بینایی است بازشناسی میکنند.یکی از مدلهای بینایی که اخیراً به عملکرد چشمگیری در بازشناسی اشیاء دست یافته است، شبکه عصبی کانولوشنی است که مسیر پیشخورِ بینایی را شبیهسازی میکند. در این مقاله مدلی بازگشتی بر پایهی این مدل و با الهام از یافتههای بیولوژیک ارائهشده است که شامل اتصالهای بازخوردی از نواحی بالاتر و همچنین اتصالهای جانبی در همان لایه است. برای ارزیابی مدل از مجموعه دادهی پنج دستهای، شامل تصاویر دارای پسزمینه و بدون پسزمینه، استفاده شد. با بصریسازی بازنماییهایی ایجادشده در لایههای مدل مشاهده شد که با پیشروی در لایههای مدل، پسزمینهی بیشتری از تصویر ورودی حذف میشود. سپس با انجام آزمایشهایی نشان داده شد که مدلِ بازگشتی با سازوکارهایپیشنهادی بازخورد از نواحی بالاتر و سرکوب پیرامون باعث بهبود معنیدارِ عملکرد مدل، در حذف پسزمینهی شیء هدف و درنتیجه بازشناسی اشیاء میشود. با توجه به نتایج، در حالتی که هر دو سازوکارِ پیشنهادی همزمان به مدل افزوده شدند، این افزایشِ عملکرد بیشتر بود که این یافته با شواهدِ بیولوژیک نیز تطابق دارد.
Object recognition in cluttered background is a challenging problem in computational modeling. When objects are present on natural backgrounds, the performance of object recognition models drop significantly. However, humans recognize objects accurately and swiftly despite this challenging condition. It seems that, our visual system achieves this ability based on lateral connections and feedback connections from higher areas.One of the computational object recognition models that recently has achieved a remarkable performance in object recognition is convolutional neural network (CNN). It resembles feed-forward sweep of visual information processing. In this study, based on CNNs and inspired by biological evidence we proposed a recurrent object recognition model. The model simulates recurrent dynamics of visual object processing by implementing feedback and lateral connections. Evaluating the model to recognize objects on natural background, we showed that the proposed mechanisms significantly improves performance. In addition, visualizing the representations of layers indicatedthat deeper layers of the CNNs remove the background much better than the lower layers. According to the results, using both mechanisms -the feedback from higher layers and the interlayer surround suppression mechanisms- simultaneously in structure of CNN, the performance improvement was more than when either one was usedalone. This observation is in accordance withthe biological evidence from the human visual system.