انجمن بینایی ماشین و پردازش تصویر ایرانمجله بینایی ماشین و پردازش تصویر2383-119710120230321Unsupervised Domain Adaptation in Person Reidentification by Learning the Features of Both Source and Target Domainsوفقدهی دامنهی بدون نظارت در مسئلهی بازشناسایی شخص از طریق یادگیری توأم ویژگیهای دامنههای منبع و هدف115159221FAصبا سادات فقیه ایمانیدانشآموختهی کارشناسی ارشد مهندسی فناوری اطلاعات، آزمایشگاه پژوهشی یادگیری عمیق، گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشکدگان فارابی، دانشگاه تهرانکاظم فولادی قلعهگروه مهندسی کامپیوتر، دانشکده مهندسی، دانشکدگان فارابی، دانشگاه تهرانحسین آقاباباگروه مهندسی کامپیوتر، دانشکده مهندسی، دانشکدگان فارابی، دانشگاه تهرانJournal Article20221020Person reidentification problem is intended to retrieve images of one person from the images captured by non-overlapping cameras. Despite the successful performance of the deep person reidentification models, the performance usually decreases during testing the model on different unlabeled datasets.<br />In this paper, a well-generalized model for unsupervised domain adaptation in person reidentificationis proposed. The model uses both labeled source dataset and unlabeled target dataset during training and the goal is to generalize well on the unlabeled target domain. To this end, our model is optimized by three loss functions. The final loss function consists of one loss function for supervised learning of the source domain’s features, another for unsupervised learning of the target domain’s features, and a triplet loss function for learning the features of both source and target domains. The proposed model with strategy 2 for selecting neighbors achieves 84.5 % in rank-1 accuracy and 63% for mAP on Duke -> Market setting. It also achieves 70.1 % in rank-1 accuracy and 49.1 % for mAP on Market -> Duke setting.<br /> مسئلهی بازشناسایی شخص شامل بازیابی تصاویر یک فرد در میان تصاویر جمعآوری شده توسط مجموعهای از دوربینهای غیرهمپوشان میباشد. باوجود عملکرد موفقآمیز مدلهای عمیق بازشناسایی شخص، هنگام آزمایش مدل روی مجموعهدادهی بدون برچسب متفاوت با مجموعهدادهی آموزشی برچسبگذاری شده، عملکرد مدل به شدت کاهش مییابد. برای حل این مشکل میتوان از وفقدهی دامنهی بدون نظارت استفاده کرد.در این پژوهش مدلی با تعمیمپذیری بالا برای وفقدهی دامنهی بدون نظارت در مسئلهی بازشناسایی شخص ارائه شده است. در این مدل از مجموعهدادهی برچسبگذاریشدهی دامنهی منبع و مجموعهدادهی بدون برچسب دامنهی هدف برای آموزش مدل استفاده میشود و مدل باید در هنگام آزمایش روی دامنهی هدف عملکرد مناسبی داشته باشد. برای این هدف، مدل پیشنهادی توسط سه تابع اتلاف بهینهسازی میشود. مجموع تابع اتلاف یادگیری بانظارت ویژگیهای دامنهی منبع، تابع اتلاف یادگیری بدون نظارت ویژگیهای دامنهی هدف و یک تابع اتلاف سهگانه بهمنظور یادگیری توأم ویژگیهای دامنهی منبع و دامنهی هدف، تابع اتلاف نهایی شبکه را تشکیل میدهد. مدل پیشنهادی با استراتژی دوم انتخاب همسایهها در تنظیمات Duke→Market در رتبهی 1 معیارCMC مقدار 84.5 درصد و مقدارmAP63 درصد و در تنظیمات Market→Duke در رتبهی 1 معیارCMC مقدار 70.1 درصد و مقدار mAP49.1 درصد را بهدست آورده است.https://jmvip.sinaweb.net/article_159221_224c9145fa1ac9a9e100c6b97f416df2.pdfانجمن بینایی ماشین و پردازش تصویر ایرانمجله بینایی ماشین و پردازش تصویر2383-119710120230321A two-stream action recognition method based on complementary traditional and deep featuresارائه یک روش دو جریانه مبتنی بر ویژگی های مکمل سنتی و عمیق برای تشخیص فعالیت انسان در ویدئو1731154176FAعاطفه مرادیانیدانشجوی کارشناسی ارشد مهندسی کامپیوتر، گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشگاه کردستان، سنندج، ایرانمحسن رمضانیگروه مهندسی کامپیوتر، دانشکده مهندسی، دانشگاه کردستان، سنندج، ایرانفردین اخلاقیان طابگروه مهندسی کامپیوتر، دانشکده مهندسی، دانشگاه کردستان، سنندج، ایرانرحمت الله میرزاییگروه مهندسی برق، دانشکده مهندسی، دانشگاه کردستان، سنندج، ایرانJournal Article20220729Today, human action recognition as an important research field is used in different applications and many computer-vision researches have focused on this area to improve recognition accuracy. In this paper, a two-stream method is introduced incorporating a new structure including two spatial features to cover their defects. Utilizing this structure leads to better performance finally. In the first stream, wavelet coefficients of key-frames with proper multi-resolution are extracted, and deep features of these key-frames are also extracted to be used in the other stream. The features in each stream are gathered in a spatial feature map. The temporal changes in both streams are learnt using a new deep network and the classification information of these streams are combined to achieve an accurate action label. The proposed method is examined on three challenging datasets as UCFYT, UCF-sport, and JHMDB with real videos which its accuracy on these datasets is 98.7, 99.83, and 92.86, respectively. The proposed method has about 4.6 percent better performance rather than the best previously introduced method on average.تشخیص فعالیت انسان، امروزه به عنوان یک حوزه مهم در کاربردهای مختلفی مورد استفاده قرار گرفته است و مورد توجه بسیاری از محققان حوزه بینایی ماشین است تا بتوانند فعالیت اجرا شده در یک ویدئو را با دقت بالا طبقه بندی نمایند. در این مقاله یک روش دو جریانه با ساختاری جدید معرفی میگردد که از دو ویژگی مکانی در هر دو جریان استفاده میکند به گونه ای که این ویژگیها بتوانند به پوشش نقاط ضعف همدیگر بپردازند. استفاده از این ساختار در نهایت میتواند به صورت دقیقتری منجر به پیشبینی برچسب فعالیت شود. در جریان اول ضرایب موجک با چندریزگی مناسب و در جریان دیگر ویژگیهای عمیق از قابها استخراج میشوند. ویژگیهای حاصل در دو نقشه ویژگیهای مکانی قرار میگیرند و با استفاده از یک شبکه عمیق جدید تغییرات زمانی در نقشهها یاد گرفته میشوند و با ترکیب اطلاعات طبقه بندی دو جریان برچسب نهایی تعیین میگردد. دقت روش پیشنهادی روی 3 مجموعه داده واقعی UCFYT، UCF-Sport، و JHMDB برابر با 98.7، 99.83 و 92.86 بوده که عملکرد روش به طور میانگین نسبت به بهترین روش معرفی شده قبلی 4.6 درصد بهتر است.https://jmvip.sinaweb.net/article_154176_729db704d5038e1645d36ea9f0e5ebe9.pdfانجمن بینایی ماشین و پردازش تصویر ایرانمجله بینایی ماشین و پردازش تصویر2383-119710120230321Covid-19 Detection based on Multi-Source Adversarial Transfer Learning and Center Loss Functionتشخیص کووید-19 مبتنی بر یادگیری انتقالی متخاصم چند منبعی و تابع خطای مرکزی3348154817FAهادی الحارسدانشجوی دکتری مهندسی کامپیوتر، دانشکده مهندسی برق و کامپیوتر، دانشگاه تبریز، تبریز، ایرانجعفر تنهادانشکده مهندسی برق و کامپیوتر، دانشگاه تبریز، تبریز، ایرانمحمد علی بالافردانشکده مهندسی برق و کامپیوتر، دانشگاه تبریز، تبریز، ایرانJournal Article20220814In recent years, deep learning techniques have been widely used to diagnose diseases. However, in the diagnosis of Covid-19 disease, due to insufficient data, the model is not properly trained and as a result, the generalizability of the model decreases. To address this, data from several different sources can be combined using transfer learning. technique. In this paper, to improve the transfer learning technique and better generalizability between multiple data sources, we propose a multi-source adversarial transfer learning model. In this method, the network, while trying to classify the data correctly, tries to make the representations of the source and target datasets as similar as possible to achieve better results in terms of quantity and quality for both datasets. we also use the center loss function to train the model. Using the center loss function helps to better distinguish classes from each other. We show that accuracy can be improved using the proposed framework, and surpass the results of current successful transfer learning approaches. The proposed method has achieved 2, 15, 15, and 8% improvement compared to the best results of other compared methods for the criteria of accuracy, precision, recall, and F1. The implementation code of the proposed method is available at the following GitHub address: https://github.com/HadiAlhares/Covid19در سالهای اخیر، از تکنیکهای یادگیری عمیق بهوفور برای تشخیص کووید با استفاده از تصاویر پزشکی استفاده میشود. با این حال در تشخص بیماری کووید 19 به دلیل دادههای ناکافی، آموزش مدل بهدرستی انجام نمیشود و در نتیجهی آن تعمیمپذیری مدل کاهش مییابد. برای پرداختن به این مسئله، میتوان دادههای چندین منبع مختلف را با استفاده از یادگیری انتقالی ترکیب کرد. در این مقاله برای بهبود کیفیت انتقال بین چند منبع داده، ما یک مدل یادگیری انتقالی متخاصم چند منبعی را پیشنهاد میکنیم. در این روش شبکه همزمان با تلاش برای دستهبندی صحیح دادهها، سعی در هر چه شبیهتر ساختن ویژگیهای مجموعهدادهی مبدأ و مقصد به یکدیگر را دارد تا نتایج یکسانی از نظر کمی و کیفی حاصل شود. همچنین در روش پیشنهادی از تابع خطای مرکزی برای آموزش مدل استفاده میکنیم. استفاده از تابع خطای مرکزی به تمییز هرچه بهتر کلاسها از یکدیگر کمک شایانی میکند. ارزیابی روش پیشنهادی با بررسی سناریوهای مختلف انتقال با دو مجموعهداده SARS-CoV-2 CT Scan و COVID19-CT با تعداد محدود تصاویر انجام گرفته و با نتایج سایر الگوریتمهای موفق مقایسه میشود. روش پیشنهادی بهازای معیارهای accuracy، precision، recall و F1 به بهبود 2، 15، 15 و 8 درصدی نسبت به بهترین نتایج سایر روشهای مقایسه شده، دست یافته است. کد پیادهسازی روش پیشنهادی در آدرس گیتهاب زیر در دسترس است:<br />https://github.com/HadiAlhares/Covid19https://jmvip.sinaweb.net/article_154817_16094d1bc7e1f32b26ccf85f8c0a3fe2.pdfانجمن بینایی ماشین و پردازش تصویر ایرانمجله بینایی ماشین و پردازش تصویر2383-119710120230321Mass Detection in Automated Three Dimensional Breast Ultrasound using Improved Inception 3D U-Netآشکارسازی تودهها در تصاویر اولتراسوند خودکار سهبعدی پستان با استفاده از Inception 3D U-Net بهبودیافته4959154823FAسپیده برکت رضاییدانشجوی دکتری هوش مصنوعی، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران، تهران، ایرانامین ملک محمدیدانشجوی کارشناسی ارشد هوش مصنوعی، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران، تهران، ایراناحسان کوزه گردانشکده فنی و مهندسی شرق گیلان، دانشگاه گیلان، گیلان، ایرانمعصومه سلامتیپژوهشگاه رویان، پژوهشکده زیست شناسی و علوم پزشکی تولید مثل جهاد دانشگاهی، مرکز تحقیقات پزشکی تولیدمثل، گروه تصویربرداری تولیدمثل، تهران، ایرانمحسن سریانیدانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران، تهران، ایران0000-0002-8555-9617Journal Article20220814Breast cancer is the leading cause of cancer death among women in most countries. Early detection of breast cancer has a significant effect on reducing mortality. Automated three-dimensional breast ultrasound (3D ABUS) is a type of imaging that has recently been used alongside mammography for the early detection of breast cancer. The 3D volume includes many slices. The radiologist will have to look at all the slices to find the mass, which is time-consuming with a high probability of mistakes. Today, many computer-aided detection (CAD) systems have been proposed to help radiologists in mass detection.<br />In this paper, the 3D U-Net architecture is improved by placing two types of modified Inception modules in the encoder and used to detect masses in 3D ABUS imahges. In the first Inception module, which is located in the first layer of the encoder, various three-dimensional features with two different fields of view are generated. In the second module, which is placed in the following layers of the encoder, line-wise features and plane-wise features are extracted. The dataset contains 60 3D ABUS volumes from 43 patients and includes 55 masses. The proposed network achieves a sensitivity of 92.9% and a false-positive per patient of 22.75سرطان پستان عامل اصلی مرگومیر ناشی از سرطان در زنان اکثر کشورهای جهان است. تشخیص سرطان پستان در مراحل اولیه تأثیر زیادی در کاهش نرخ مرگومیر دارد. تصویربرداری اولتراسوند خودکار سهبعدی پستان (3D ABUS) نوعی تصویربرداری است که اخیراً در کنار ماموگرافی برای تشخیص زودهنگام سرطان پستان استفاده میشود. حجم سهبعدی تولیدشده در این تصویربرداری شامل تعداد زیادی برش است. رادیولوژیست برای یافتن توده باید تمام برشهای تصویر را بررسی کند که کاری زمانبر با احتمال خطای زیاد است. امروزه برای کمک به رادیولوژیستها در آشکارسازی توده، سیستمهای آشکارساز کامپیوتری (CAD) بسیاری ارائه شده است.<br />در این مقاله، معماری 3D U-Net با قرار دادن دو نوع ماژول Inception تغییریافته در بخش کدگذار بهبود داده شده و برای آشکارسازی توده در تصاویر 3D ABUS استفاده شده است. در ماژول پیشنهادی اول که در اولین لایه کدگذار قرار میگیرد، ویژگیهای سهبعدی متنوع با دو میدان دید متفاوت تولید میشود. در ماژول دوم که در لایههای بعدی کدگذار قرار میگیرد، ویژگیهای خطی و ویژگیهای صفحهای استخراج میشود. مجموعه داده مورد استفاده دارای 60 حجم 3D ABUS از 43 بیمار و شامل 55 توده است. شبکه پیشنهادی به حساسیت 92.9% و میانگین FP برابر با 22.75 به ازای هر بیمار دست یافته است.https://jmvip.sinaweb.net/article_154823_7b63ce84567f6607adb5e76ab6daac18.pdfانجمن بینایی ماشین و پردازش تصویر ایرانمجله بینایی ماشین و پردازش تصویر2383-119710120230321The effect of image normalization and iteration number of the linear despeckle filtering on the structural similarity criteria of the consecutive ultrasound images of the common carotid arteryاثر بهنجار کردن و تعداد تکرار فیلتر خطی حذف اسپکل بر معیار تشابه ساختاری تصاویر متوالی فراصوتی از شریان کاروتید مشترک6174156310FAعفت سلیمانیدانشگاه علوم پزشکی شهید بهشتی، گروه تکنولوژی پرتوشناسی0000-0003-3376-7323هژیر صابریگروه رادیولوژی، دانشگاه علوم پزشکی تهران، بیمارستان امام خمینی ، تهرانJournal Article20220908The aim of the present study is to evaluate the effect of image normalization and iteration number of the linear despeckle filtering on the consecutive ultrasound image quality of the carotid artery and to select the optimum iteration number of ultrasound despeckle filtering. 750 consecutive ultrasonic images over three cardiac cycles of the common carotid artery of three healthy male volunteers (32±9Yr) and 250 consecutive ultrasonic images over three cardiac cycles of the common carotid artery of a male volunteers (65 Yr) having atherosclerotic stenosis were recorded. Using a custom-written program in MATLAb software, the images were first normalized based on gray scale level of the blood and adventitia. Then a linear despeckle filter was applied in 10 iteration to the normalized images. The quality of the images processed with different iterations were evaluated via metrics including mean, variance, signal to noise ratio, relative contrast, noise speckle index, contrast to speckle ratio and structural similarity.<br />Results of the present study shows that among all evaluated metrics, structural similarity is the only metric which is not monotone with iteration number so that by increasing the iteration, initially it increases and then decreases. The optimum iteration of the despeckling filter is that of the maximum structural similarity. According to the results of the present study it seems that 2 to 5 iterations of linear filtering of size 5×5 is required to obtain the maximum structural similarity and further increasing the iteration number results in image texture loss while more computational cost.هدف مطالعه ی حاضر بررسی اثر بهنجار سازی و تعداد تکرار اجرای فیلتر خطی حذف اسپکل بر کیفیت تصاویر فراصوتی متوالی از شریان کاروتید و انتخاب معیار بهینه برای تعداد تکرار فیلتر حذف اسپکل در تصاویر فراصوتی است. 750 تصویر فراصوتی متوالی در طول سه سیکل قلبی از شریان کاروتید سه داوطلب مرد سالم (24، 31 و 42 ساله) و 250 تصویر فراصوتی متوالی در طول سه سیکل قلبی از شریان کاروتید یک داوطلب مرد 65 ساله دارای تنگی آترواسکلروز ثبت شد. با استفاده از یک برنامه نوشته شده در محیط متلب، ابتدا تصاویر با مقیاس بندی مجدد سطح خاکستری خون و ادونتیشیا بهنجار شدند و سپس یک فیلتر خطی حذف اسپکل در 10 تکرار بر تصاویر بهنجار شده اعمال شد. کیفیت تصاویر پردازش شده با تکرارهای مختلف، با استفاده از شاخص های میانگین، واریانس، نسبت سیگنال به نویز، کنتراست نسبی، اندیس نویز اسپکل، نسبت کنتراست به اسپکل و تشابه ساختاری مورد ارزیابی قرار گرفت.<br />نتایج مطالعه حاضر نشان میدهد که در میان شاخص های مورد ارزیابی، تشابه ساختاری تنها مشخصه های است که با افزایش تکرار فیلتر رفتار یکنوا ندارد بطوریکه با افزایش تعداد تکرار فیلتر خطی، تشابه ساختاری ابتدا افزایش و سپس کاهش می یابد. بهینه تعداد تکرار فیلتر حذف نویز مربوط به بیشینه مقدار تشابه ساختاری است. براساس نتایج مطالعه ی حاضر، به نظر میرسد برای دستیابی به بیشینه تشابه ساختاری به 2 تا 5 مرتبه فیلتراسیون خطی با اندازه 5×5 نیاز است و افزایش بیشتر تعداد فیلتر، ضمن افزایش هزینه محاسباتی موجب کاهش تشابه ساختاری و محو شدن جزتیات تصویر میشود.https://jmvip.sinaweb.net/article_156310_2ae84f54aa3be1b320a1d2a7918f33b3.pdfانجمن بینایی ماشین و پردازش تصویر ایرانمجله بینایی ماشین و پردازش تصویر2383-119710120230321Automatic image captioning using capsule neural network and ELMo embedding techniqueتوصیف محتوای تصاویر به صورت خودکار با بکارگیری شبکه عصبی کپسولی و روش تعبیه سازی ELMo7591160256FAشیما جوانمردیدانشجوی مهندسی دکتری هوش مصنوعی، دانشگاه یزد0000-0002-3027-5895علی محمد لطیفدانشکده مهندسی کامپیوتر، دانشگاه یزدمحمدتقی صادقیدانشکده مهندسی برق، دانشگاه یزدJournal Article20221109Automatic image captioning is a challenging task in computer vision and aims to generate computer-understandable descriptions for images. Employing convolutional neural networks (CNN) has a key role in image caption generation. However, during the process of generating descriptions for an image, there are two major challenges for CNN, such as: they do not consider the relationships and spatial hierarchical structures between the objects in the image, and the lack of resistance against rotational changes of the images. In order to solve these challenges, this paper presents an improved capsule network to describe image content using natural language processing by considering the relations between the objects . A capsule contains a set of neurons that consider the parameters of the state of objects in the image, such as size, direction, scale, and relationships of objects to each other. These capsules have a special focus on extracting meaningful features for use in the process of generating relevant descriptions for a given set of images. Qualitative tests on the MS-COCO dataset using the capsule network and ELMo embedding technique have resulted in 2-5% improvement in the evaluated metrics compared to existing image captioning models.توصیف محتوای تصویر به صورت خودکار توسط ماشین یک مشکل چالش برانگیز در بینایی کامپیوتر است و هدف آن تولید توضیحات قابل درک توسط کامپیوتر برای تصاویر میباشد. استفاده از شبکه های عصبی پیچشی (CNN) نقش مهمی در زمینه توصیف تصاویر ایفا کرده است. با این حال، در طول فرآیند تولید توصیفهای مرتبط با تصویر دو چالش عمده برای CNN وجود دارد که عبارتند از: عدم توجه آنها به روابط و ساختارهای سلسله مراتبی مکانی بین اشیای درون تصویر، و عدم ثبات در مقابل تغییرات چرخشی تصاویر. به منظور رفع این چالش ها این مقاله با بهره گیری از یک شبکه کپسولی بهبود یافته، به توصیف محتوای تصویر با استفاده از پردازش زبان طبیعی میپردازد. شبکه کپسولی با درنظر گرفتن موقعیت مکانی اشیای درون تصویر نسبت به یکدیگر، اطلاعات مربوط به محتوای تصویر را ارائه میدهد. یک کپسول شامل مجموعهای از نورونها است که پارامترهای وضعیت اشیا درون تصویر مانند سایز، جهت، مقیاس و روابط اشیا نسبت به هم را در نظر می گیرند. این کپسول ها تمرکز ویژهای بر استخراج ویژگی های معنادار برای استفاده در فرآیند تولید توضیحات مرتبط برای مجموعه ای معین از تصاویر دارند. آزمایشهای کیفی روی مجموعه دادههای MS-COCO با بهره گیری از شبکه کپسولی و روش تعبیه سازی ELMo، منجر به بهبود 2 تا 5 درصدی معیارهای ارزیابی شده، در مقایسه با مدلهای زیرنویس تصویر موجود شده است.https://jmvip.sinaweb.net/article_160256_b219b6b2dde59970511ca2d4fbe433be.pdf