انجمن بینایی ماشین و پردازش تصویر ایرانمجله بینایی ماشین و پردازش تصویر2383-119710220230622A new method to generate a biometric encryption key based on a segmented fingerprint imageطراحی روش جدید در تولید کلید رمزنگاری بیومتریک بر اساس تصویر قطعهبندی شده اثر انگشت118161636FAمحمدرضا روزبهانیدانشجوی کارشناسی ارشد مهندسی برق، دانشگاه صنعتی امیرکبیر، تهران، ایرانساناز سیدینگروه مهندسی الکترونیک، دانشکده مهندسی برق، دانشگاه صنعتی امیرکبیر، تهران، ایرانبهرام رشیدیگروه مهندسی برق، دانشکده فنی و مهندسی،دانشگاه آیتالله بروجردی(ره)، بروجرد، ایرانJournal Article20221125<strong>In this paper, we aim to use biometric fingerprint features to generate random cryptographic keys. The complexity of the key generation algorithm, the high number of bits, and the randomness are three important factors for strong cryptographic keys. In the proposed method, firstly, we extract the biometric features, i.e Minutiae points after an appropriate image processing step. Then, to increase the complexity of the key generation method as well as its security, each image is divided into 44 segments. Thus, we could increase random data by calculating the Euclidean distance and the angle between the central pixels of each 44 segmentswith all Minutiae points.Finally, we have proposed a three-step algorithm to generate the final key. It includes placing the related valuesof the angle and distance in the even and odd positions of a single matrix, two methods of bit replacement and permutation, and applying a uniform distribution on data. We could extract subkeys of 128, 256, and 512 bits due to the high number of bits of the final key which is useful in cryptography applications. The performed statistical analysis tests such as NIST prove the randomness and high security of the final 63751-bit key. According to these tests, the proposed method outperforms the previous ones in the literature which only use the distance/angle among minutiae points for generating cryptographic keys with much lower lengths. Considering the 15 tests of NIST for evaluating the key randomness, the proposed algorithm outperforms the previous methods up to 20%. </strong>هدف این مقاله استفاده از ویژگیهای بیومتریک اثر انگشت برای دستیابی به کلیدهای رمزنگاری تصادفی میباشد. پیچیدگی الگوریتم تولید کلید، تعداد بیت بالا و تصادفی بودن سه فاکتور مهم برای کلیدهای رمزنگاری قوی میباشند. در روش پیشنهادی، ابتدا ویژگیهای بیومتریک یعنی نقاط مینوشیا را با پردازش تصویر اثر انگشت استخراج میکنیم. سپس برای افزایش پیچیدگی روش تولید کلید و امنیت کلید تولیدی، هر تصویر را به 44 قطعه تقسیم میکنیم تا با محاسبه فاصله اقلیدوسی و زاویه بین پیکسلهای مرکزی هر 44 قطعه با کل مینوشیاهای تصویر بتوانیم داده های تصادفی را افزایش دهیم. جهت افزایش بیشتر حالت تصادفی کلید، یک الگوریتم سه-گامه پیشنهاد میکنیم که شامل قرار دادن اعداد مربوط به زاویه و فاصله بصورت زوج و فرد در کنار یکدیگر، دو شکل جابجایی و جایگشت بیتها و اعمال توزیع یکنواخت روی داده ها برای تولید کلید نهایی میباشد. به علت بالا بودن تعداد بیت کلید، می توان با استخراج زیر کلیدهای 128، 256 و 512 بیتی از ماتریس کلید مذکور در رمزنگاری از آنها استفاده نمود. آنالیزهای آماری انجام شده همچون مجموعه تست های استاندارد NIST، تصادفی بودن و امنیت بالای کلید نهایی 63751 بیتی را اثبات میکند، و نشان دهنده عملکرد بهتر روش پیشنهادی در مقایسه با کارهای گذشته می باشد که تنها از فاصله یا زاویه بین نقاط مینوشیا برای تولید کلید رمزنگاری تصادفی با طول بیت یسیار کمتر استفاده کرده اند. الگوریتم پیشنهادی، با توجه به 15 تست NIST، نسبت به کارهای جدید گذشته تا 20% از نظر تصادفی بودن کلید تولید شده بهبود دارد.https://jmvip.sinaweb.net/article_161636_50a4c8ce8120270a7797305f17763ba8.pdfانجمن بینایی ماشین و پردازش تصویر ایرانمجله بینایی ماشین و پردازش تصویر2383-119710220230622Determining returning spacecraft velocity, using image features trackingاندازه گیری سرعت فضاپیمای بازگشتی به کمک ردیابی شاخصه های تصویری1929161637FAمحسن شامیرزاییدانشجوی دکتری هوافضا، آزمایشگاه تحقیقات فضایی، دانشکده مهندسی هوافضا، دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایرانمهران میرشمسگروه مهندسی فضایی، دانشکده هوافضا، دانشگاه خواجه نصیرالدینطوسیJournal Article20221125<strong>In this article, RLS method is used to process the information obtained from the tracking of features in order to measure the linear and angular displacement of the camera between image frames and subsequently to measure the speed. On the other hand, camera image registration with reference images is used to measure the INS error in position and attitude. The EKF is used to integrate the measurements of VS with the outputs of the INS. As the accuracy of the VINS is improved, it is possible to achieve a suitable approximation of the camera movement in the time intervals between the image frames. Using this approximation as an initial point leads to the convergence of the RLS to the acceptable answer. To show the effectiveness of the proposed method, the return of a spacecraft and the images of the camera mounted on it are simulated. The INS reports the speed, position and attitude erroneously. By tracking opportunistic features and determining the location of a priori mapped landmarks in image, the errors of the INS are estimated and corrected. The results are validated by comparing them with the values obtained from solving the motion equations as error-free values. The results show that in the defined scenario for the return of the spacecraft and specifications considered for the camera and inertial sensors, the accuracy of 0.02 m/s, 5m and 0.01 deg. respectively in determining the speed, position and attitude is achievable.</strong>مسأله ی تعیین جابجایی و دوران دوربین براساس شاخصه های متناظر میان فریم های تصویر، از موضوعات مورد بحث در علم بینایی ماشین است. پیچیدگی مسأله به یکتا نبودن پاسخ مربوط میشود. در این مقاله از روش حداقل مربعات بازگشتی برای پردازش اطلاعات حاصل از ردیابی شاخصه های تصویری به منظور اندازه گیری جابجایی خطی و زاویه ای دوربین میان فریم های تصویری و متعاقب آن اندازه گیری سرعت استفاده میشود. به طور مشابه، از تطبیق تصاویر لحظه ای دوربین با تصاویر مرجع، برای اندازه گیری خطای ناوبری اینرسی در تعیین خطای موقعیت و وضعیت فضاپیمای حامل دوربین استفاده میشود. همچنین فیلتر کالمن توسعه یافته برای تلفیق مقادیر اندازه گیری شده توسط سامانه بینایی با اطلاعات سیستم ناوبری اینرسی به کار گرفته میشود. بدین ترتیب، همزمان با ارتقاء دقت سیستم ناوبری، امکان دستیابی به تقریب مناسبی از جابجایی دوربین در بازه های زمانی میان فریم های تصویر فراهم میشود. بکارگیری این تقریب به عنوان نقطه شروع، باعث همگرایی روش حداقل مربعات بازگشتی به پاسخ مورد قبول از میان پاسخ های ممکن برای مسأله میشود. برای نمایش کارایی روش پیشنهادی، بازگشت یک فضاپیمای نوعی و تصاویر دوربین نصب شده بر روی آن شبیه سازی میشود. خطای سنسورهای اینرسی مدلسازی شده اند. بنابراین سیستم ناوبری اینرسی سرعت، موقعیت و وضعیت فضاپیما را با خطا گزارش میکند. با ردیابی شاخصه های تصویری مناسب و تعیین مختصات نقاط شاخصِ از پیش نگاشت یافته در تصویر دوربین، خطای سیستم ناوبری اینرسی تخمین زده شده و اصلاح میگردد. صحه گذاری بر نتایج، از طریق مقایسه آنها با مقادیر حاصل از حل معادلات شش درجه آزادی حرکت به عنوان مقادیر صحیح و بدون خطا انجام میشود. نتایج نشان میدهند که در سناریوی تعریف شده برای بازگشت فضاپیما و به ازای مشخصات درنظر گرفته شده برای دوربین و سنسورهای اینرسی، دقت 02/0 متر بر ثانیه، 5 متر و 01/0 درجه به ترتیب در تعیین سرعت، موقعیت و وضعیت قابل دستیابی است، ضمن این که دقت حاصل از بکارگیری سامانه بینایی، مستقل از زمان پرواز، دینامیک پرنده و سایر عوامل مؤثر بر دقت سیستم ناوبری اینرسی است.https://jmvip.sinaweb.net/article_161637_792216f730166bb2f5eabc278915be14.pdfانجمن بینایی ماشین و پردازش تصویر ایرانمجله بینایی ماشین و پردازش تصویر2383-119710220230622Introducing a database for Farsi document image understanding and segmentationمعرفی یک مجموعه داده برای کاربرد های درک و ناحیه بندی تصاویر اسناد فارسی3146164674FAامین فرجیدانشجوی کارشناسی ارشد بخش مهندسی کامپیوتر دانشگاه شهید باهنر کرمانمسعود سعیددانشکده فنی و مهندسی دانشگاه شهید باهنر کرمانحسین نظام آبادی پوردانشکده فنی و مهندسی دانشگاه شهید باهنر کرمانJournal Article20220718Document images segmentation is one of the recent activities that have attracted researchers' attention. Unfortunately, there is no report on a benchmark dataset for Farsi document images understanding and segmentations applications that be available in the web. In the current article, a benchmark image dataset for the sake of the Farsi document images segmentation is presented, which includes 5598 images. The provided images are taken from the newspapers, textbooks and academic articles. Objects in the images are categorized and labeled into six different groups to be used easily in the subsequent applications. The object groups used in the dataset are paragraph(text), figure, table, logo, mathematical equation and header. To asset the effectiveness of the proposed document image dataset, three existing well-known methods based on deep learning are implemented on it and the results are presented.وجود مجموعه دادههای تصویری نقش اساسی در زمینه تشخیص نویسه خوان نوری (OCR) و بازیابی اسناد دارد. علیرغم اینکه تا به امروز مجموعه دادههای تصویری زیادی با اشیا متفاوت در حوزه درک و ناحیهبندی اسناد غیرفارسی منتشر شده است، رسم الخط فارسی از این پیشرفت عقب مانده است و تاکنون در زمینه درک و ناحیهبندی اسناد فارسی، مجموعه دادگانی با دسترسی عمومی ارائه نشده است. از سوی دیگر، اگرچه زبانهای فارسی و عربی شباهتهای زیادی دارند، اما تفاوت بین ساختار این دو زبان باعث میشود که سیستمهای آموزشدیدهOCR با مجموعه داده عربی، دقت مناسبی روی تصاویر اسناد فارسی نداشته باشند. در این مقاله، یک مجموعه داده برای تصاویر اسناد فارسی معرفی میگردد که مشتمل بر 5598 تصویر است. تصاویر تهیه شده متعلق به روزنامهها، کتابهای درسی، مقالات علمی، فایلهای PDF فارسی، پایاننامهها، انواع لوگو ایرانی، کتب دستنوشته قدیمی و جزوات تایپ شده و دستنویس ریاضی هستند. در مجموعه داده معرفی شده، اشیا درون تصاویر به 6 گروه پاراگراف (متن)، شکل، جدول، لوگو، رابطه ریاضی و سرصفحه دستهبندی و برچسبگذاری شدهاند. برای ارزیابی کارایی مجموعه تصویر پیشنهادی، سه روش شناخته شده مبتنی بر یادگیری عمیق پیاده سازی و نتایج بر مبنای معیارهای مختلف گزارش شده است.https://jmvip.sinaweb.net/article_164674_2da594d59770a5ccf9b83b0e38d1ae50.pdfانجمن بینایی ماشین و پردازش تصویر ایرانمجله بینایی ماشین و پردازش تصویر2383-119710220230622Denoising in Image-to-Image translation using Generative adversarial Network based on Wavelet transformحذف نویز در انتقال محتوای تصویر به تصویر با استفاده از شبکه مولدتخاصمی مبتنی بر تبدیل موجک4755166543FAفرزانه مقصودی قمبوانیدانشجوی دکتری مهندسی کامپیوتر، گرایش هوش مصنوعی، دانشگاه سمنان، دانشکده مهندسی برق و کامپیوترمحمدجواد فدایی اسلامدانشکده مهندسی برق و کامپیوتر، دانشگاه سمنان0000-0002-8560-6444فرزین یغماییدانشکده مهندسی برق و کامپیوتر، دانشگاه سمنانJournal Article20230208The image-to-image translation is one of the most challenging topics in artificial intelligence, which has recently made significant progress with the use of generative adversarial networks (GANs). However, existing methods often fail to translate the noise source to the target domain. This article presents the WTGAN network, which includes a new generator and a local and global discriminator to solve this problem. The generating network is designed based on wavelet transform and attention. Due to the fact that wavelet transforms are powerful tools for removing general noise from the image, They have been used in the structure of the generator. Also, attention, residual and skip-connections can provide deeper surface information between the source and target image and help to improve the generator performance. Experiments were performed on the Cityscapes dataset and PSNR, SSIM, and LPIPS criteria were used for evaluation. The results have shown that the model can well reduce the effects of noise at the source, well reserve structure, and achieve the desired quality.یکی از چالش برانگیزترین موضوعات در هوش مصنوعی انتقال محتوای تصویر به تصویر است، که اخیراً با استفاده از شبکههای مولدتخاصمی پیشرفت چشمگیری نموده است. بااینحال، روشهای موجود در انتقال محتوای منبع نویزی به دامنه هدف به صورت سربهسر شکست میخورند. برای رفع این مشکل، در این مقاله شبکه WTGAN پیشنهاد شده که شامل مولد جدید، جداکننده محلی و سراسری است که شبکه مولد آن بر اساس تبدیل موجک و ماژول توجه طراحی شده است. از آنجا که تبدیل موجک ابزاری قدرتمند جهت حذف نویز عمومی از تصویر است، در ساختار مولد از آن استفاده شده است. همچنین با استفاده از مکانیزم توجه، اتصالات باقیمانده و کنارگذر تناظر بهتر محتوا بین تصویر منبع و هدف به وجود آمده و به بهبود توانایی مولد و عملکرد آن کمک مینماید. در این مقاله با استفاده از توابع اتلاف معرفی شده در روشهای دیگر به قدرتمندی مدل در جهت انتقال محتوای تصویر توأمان با حذف نویز پرداخته شده است. آزمایشهای انجام شده بر روی مجموعه داده Cityscapes با استفاده از معیارهای ارزیابی PSNR، SSIM و LPIPS نشان دهنده این است که مدل میتواند به خوبی اثرات نویز در منبع را کاهش داده، ساختار را به خوبی حفظ نموده و به کیفیت مطلوب دست یابد.https://jmvip.sinaweb.net/article_166543_db12a5df13e161c2c5aa005c4c86bc0f.pdfانجمن بینایی ماشین و پردازش تصویر ایرانمجله بینایی ماشین و پردازش تصویر2383-119710220230622Noise reduction of digital images using attention effect and depth reduction of deep neural networksکاهش نویز تصاویر دیجیتال با استفاده از اثر توجه و کاهش عمق شبکه های عصبی عمیق5775167804FAمرتضی یوسفیدانشجوی دکتری گروه مهندسی برق دانشگاه لرستانوحید مهردادگروه آموزشی مهندسی برق-الکترونیک، دانشکده فنی و مهندسی، دانشگاه لرستانJournal Article20230303Noise removal is one of the important topics in image processing to improve image quality. Since deep neural networks alone face problems such as vanishing gradient by increasing the depth of the network and could not cover the details well for a specific task, in this paper, by reducing the depth of the network and increasing its width, it is possible to obtain diverse features from different channels, which increases the accuracy of the network. By increasing the width of the network into two branches, different information is extracted from the noisy image, which is very accurate for separating noisy data from the image. The effect of attention to the features in each channel and their weighting in the noise removal operation is also considered. Finally, to check the effectiveness of the proposed method, the results are compared with the state of the art results in this field. The simulation results by examining both PSNR and SSIM and from a visual point of view show that this method is acceptable in dealing with various types of synthetic and blind noises for performing processing, and on the other hand, using the effect of attention and parallel networks can be achieved with PSNR=36.34db, which is very effective in real noise.<strong>یکی از مهمترین موضوعات در پردازش تصویر حذف نویز میباشد تا بتوان کیفیت تصویر را بهبود بخشید. از آنجائیکه شبکه های عصبی عمیق به تنهایی با افزایش عمق شبکه با مشکلاتی مانند محو گرادیان مواجه میشوند و نمیتوانستند جزئیات را به خوبی برای یک وظیفه خاص پوشش دهند در این مقاله، با کاهش عمق شبکه و افزایش پهنای آن، امکان استخراج ویژگیهای متنوع از کانالهای مختلف فراهم میشود، که این امر منجر به افزایش دقت شبکه میگردد. با افزایش پهنای شبکه به دو انشعاب، اطلاعات متفاوتی از تصویر نویزی استخراج میشود که این عمل برای تفکیک داده های نویزی از تصویر بسیار موثر است. اثر توجه به ویژگیها در هر کانال و وزندهی آنها در عملیات حذف نویز نیز در نظر گرفته میشود. در نهایت برای بررسی کارامدی روش پیشنهادی، نتایج با آخرین دستاوردهای این حوزه مقایسه میشوند. نتایج شبیهسازی با بررسی دو معیار PSNR و SSIM و هم از نگاه بصری نشان میدهد این روش در مقابله با انواع نویز ترکیبی و کور جهت انجام کارهای پردازشی در حد قابل قبولی میباشد و از طرفی استفاده از اثر توجه و شبکه های موازی میتواند در مواجهه با نویز حقیقی بسیار موثر باشد و توانسته است به میانگین PSNR=36.34db دست یابد</strong>https://jmvip.sinaweb.net/article_167804_9fcdd161b406e6be983e08f217121d45.pdfانجمن بینایی ماشین و پردازش تصویر ایرانمجله بینایی ماشین و پردازش تصویر2383-119710220230622Image Captioning based on Encoder-Decoder Deep Network and Attention on Attentionتوصیف تصاویر مبتنی بر شبکه عمیق رمزگذار-رمزگشا و سازوکار توجه بر توجه7788167805FAزهرا فامیل ستاریآزمایشگاه هوش و بینایی ربات، گروه مهندسی کامپیوتر، دانشگاه بوعلی سیناحسن ختن لوآزمایشگاه هوش و بینایی ربات، گروه مهندسی کامپیوتر، دانشگاه بوعلی سیناالهام علیقارداشآزمایشگاه هوش و بینایی ربات، گروه مهندسی کامپیوتر، دانشگاه بوعلی سیناJournal Article20230303Image captioning is an interdisciplinary research field in machine vision and natural language processing. Most of the proposed methods for generating image captions follow an encoder-decoder framework. In this way, each word is generated based on the image features and previously generated words. Recently the attention mechanism, which usually creates a spatial map that highlights the image regions associated with each word, has been widely used in research. In this paper, we propose a new method that integrates the encoder-decoder framework with the attention on attention mechanism. The encoder part of the model uses ResNet to extract global features of the image, and the decoder consists of three important parts: Attention-LSTM, Language-LSTM, and Attention on attention-layer. The attention mechanism uses local evidence to enhance the demonstration of the features and reasoning in the generation of image descriptions. The method was able to improve the generation of captions and improve METEOR, ROUGH evaluation metric well. And also it generates better captions compared to modern methods on the Flickr8k, dataset.توصیف تصویر یک زمینه تحقیقاتی بین رشته ای در بینایی ماشین و پردازش زبان طبیعی است. بسیاری از روشهای پیشنهاد شده برای تولید توصیف تصویر از چارچوب رمزگذار - رمزگشا پیروی کردهاند. به این ترتیب هر کلمه بر اساس ویژگیهای تصویر و کلمات تولید شده قبلی تولید میشود. اخیراً سازوکار توجه، که میتواند با ایجاد نقشه فضایی، مناطق مرتبط تصویر با هر کلمه را برجسته کند، به طور گسترده در تحقیقات استفاده شده است. در این مقاله، ما یک روش جدید را پیشنهاد کردهایم که چارچوب رمزگذار-رمزگشا را با سازوکار توجه و سازوکار توجه بر توجه ادغام کرده است. بخش رمزگذار مدل شامل چند بخش ResNet، Attention-LSTM، Multi Head Attention و Attention on Attention است. از ResNet برای استخراج ویژگی های کلی تصویر استفاده شده است. ایهی Language-LSTMمسئولیت رمزگشایی را بر عهده دارد. سازوکار توجه از شواهد محلی برای افزایش نمایش ویژگیها و استدلال در تولید توصیفات تصویری بهره برده و سازوکار توجه بر توجه میتواند روابط اشیای داخل تصاویر را بهخوبی درک کند. این روش پیشنهادی توانسته است بر روی تصاویر مجموعههای داده Flickr8k و MSCOCOتوصیفهای بهتری را نسبت به روشهای موفق موجود ارائه دهد. همچنین بر اساس معیارهای ارزیابی METEOR، ROUGEعملکرد توصیف تصویر را بهبود داده است.https://jmvip.sinaweb.net/article_167805_831fa56315be1a01e51499553ae2dc32.pdf