Style Transfer for Data Augmentation in Convolutional Neural Networks Applied to Fire Detection

Document Type : Research Article

Author

Dept. of Computer Science, Faculty of Mathematics and Computer Science, Hakim Sabzevari University, Sabzevar, Iran

Abstract

Adequate training data is essential in all supervised learning methods, including deep learning and machine vision. One of the approaches used to increase the number of training examples in deep learning is the "data augmentation" method. This method involves rotation transformation, transitions, and cropping on training images, which leads to an increase in the number of samples, which are different from training data. In this paper, the "style transfer" algorithm is used to increase the number of training samples. The goal in style transfer is to apply the appearance or visual style of one image to another image. In this paper, this method is used to produce new training examples and as an application, the proposed method is applied to the problem of fire detection. Assuming that the training images recorded during the night are less than the samples taken during the day, by applying a style transfer method, the images of the day are converted into night images and added to the data set as training data. The test results show the efficiency of the proposed data augmentation method. On average, the correct detection rate has increased by 7%.

Keywords


  • مقدمه[1]

انتقال سبک نقاشی که از دیرباز مورد علاقۀ هنرمندان بوده است، در حوزۀ بینایی ماشین و یادگیری عمیق [1, 2] نیز توجه زیادی را به خود معطوف کرده است. یک روش انتقال سبک، دو تصویر دریافت می‌کند و تصویر سومی به دست می‌دهد که محتوای کلی آن از تصویر اول و سَبْک و سیاق (استایل) آن از تصویر دوم حاصل شده باشد. این مسئله تا حدودی مشابه ترکیب (ادغام) تصاویر در پردازش تصویر است. شیوه‌های سنتی بسیاری در ترکیب و ادغام تصاویر ارائه شده‌اند؛ برای مثال، در [3] از روش‌های همرنگ‌سازی چندبانده و تبدیل موجک برای ادغام تصاویر استفاده شده است. در [4] هدف، انتقال بافت یک تصویر به تصویر دیگر است. این شیوه، بافت یک تصویر مانند پارچه را روی تصویری دیگر اعمال می‌کند. یک جفت تصویر آموزشی (A,A') و تصویر مدنظر (B) برای اعمال سبک به‌عنوان ورودی به آن داده می‌شوند. در یک ساختار هرم گاوسی، به‌ازای هر پنجره از تصویر ورودی، نزدیک‌ترین پنجره به آن از A یافت می‌شود و بافت پنجرۀ متناظر از A' برای تولید B'‌ به کار می‌رود. روش مشابه بعدی، روش فراتفکیک‌پذیری مبتنی بر مثال فریمن و همکاران [5] بوده است که کلیات کار آن مشابه [4] است. محدودیت اصلی این شیوه‌ها آن است که فقط از ویژگی‌های سطح پایین تصویر استفاده می‌کنند. با گسترش یادگیری عمیق و شبکه‌های عصبی کانولوشنی،‌ شاهد انجام انتقال سبک با این شبکه‌ها - به‌صورتی بسیار کارآمدتر از شیوه‌های سنتی - با نام «انتقال سبک عصبی»[1] هستیم که با کار تأثیرگذار گَتیس[2] و همکاران [6] شروع شد. هدف در انتقال سبک،‌ ایجاد تصویر جدیدی براساس دو تصویر ورودی است که محتوای کلی آن از تصویر اول و سبک آن از تصویر دوم (به‌طور مثال، یک اثر هنری) گرفته شده باشد. تصویر اول، تصویر «محتوا»[3] و دومی، تصویر «استایل» (سبک)[4] نامیده می‌شوند. شکل ۱ نتیجۀ اعمال شیوۀ انتقال سبک عصبیِ [7] روی تصویری از یک روباه[5] و چند سبک مختلف را نشان می‌دهد.

گرچه شاید به جنبۀ هنری انتقال سبک بیشتر توجه شده است، کاربردهای عملی هم دارد. کاربرد مدنظر در این نوشتار، استفاده از آن برای تولید تصاویر آموزشی بیشتر برای شناسایی شعلۀ آتش است. آنچه در اینجا مدنظر است، شناسایی شیئ (آتش) و یافتن محل آن[6] در تصویر است که درواقع پیچیده‌تر از طبقه‌بندی تصاویر به دو گروه دارای شعله و بدون شعله است. در روال آموزشِ یک سیستم و شناسایی اشیا، به داده‌های آموزشی کافی - وابسته به پیچیدگی مدل - نیاز است. گاهی تعداد نمونه‌ها نسبت به پیچیدگی مدل کم است که به بیش‌برازشی[7] مدل منجر خواهد شد؛ موردی که در مجموعه دادگان حوزۀ شناسایی آتش با آن مواجهیم. در بسیاری از مجموعه دادگان حوزۀ شناسایی آتش، تعداد تصاویر حاوی شعلۀ آتش که در شب اخذ شده‌اند، کمتر از نمونه‌های ثبت‌شده در نور روزند. در این نوشتار با یک روش انتقال سبک، تعدادی از نمونه‌های روز به نمونه‌های شب، تبدیل و در روال آموزش استفاده می‌شوند. نتایج آزمایشات انجام‌شده نشان‌دهندۀ کارایی شیوۀ پیشنهادی بوده است.

با توجه به اینکه شیوۀ پیشنهادی مرتبط با شبکه‌های عصبی کانولوشنی، انتقال سبک، شبکه‌های مولد رقابتی و شناسایی آتش است، در ادامه بخش‌هایی به هر یک از این موارد اختصاص داده خواهد شد. پس از بیان شیوۀ پیشنهادی، نتایج آزمایشات و جمع‌بندی را خواهیم داشت.

 

 

تصویر ورودی

(تصویر محتوا)

 

تصاویر تولیدشده

تصاویر استایل (سبک)

 

 

 

 

 

 

(الف)

(ب)

شکل (1): سطر اول: تصویر روباه، به‌عنوان تصویر محتوا. در سطرهای دوم تا سوم، ستون (الف) نتیجۀ انتقال سبک عصبی مرجع [7] با تصویر روباه سطر اول به‌عنوان تصویر محتوا و تصویر سطر مربوطه در ستون (ب) به‌عنوان تصویر استایل است. نمونه‌هایی دیگر در گیت‌هاب نگارنده[8] مشاهده می‌شوند.

۱-۱- شبکه‌های عصبی کانولوشنی

افزایش قدرت محاسباتی سخت‌افزارها و الگوریتم‌های جدید بهینه‌سازی در حوزۀ شبکه‌های عصبی موجب توجه مجدد به این شبکه‌ها و به‌ویژه شبکه‌های عصبی کانولوشنی شده است. برخلاف شبکه‌های سنتی چندلایۀ پرسپترونی که هر نود در یک لایه به تمام نودها (نورون‌های) لایه‌های قبل و بعد از خود متصل است، در شبکه‌های کانولوشنی هر نورون در یک لایه از یک گروه محلی از نورون‌های لایۀ قبل از خود تأثیر می‌پذیرد [1]. این شبکه‌ها متضمن چندین لایه از انواع مختلف‌اند که هر دسته از آنها عملکرد مشخصی دارند [2]. در یک نگاه کلی در یک شبکۀ کانولوشنی، مشابه یک هرم گاوسی، در هر لایه، تصویر فیلتر و کوچک می‌شود[9]. لایه‌های کانولوشنی وظیفۀ استخراج ویژگی‌ها را به عهده دارند؛ لایه‌های ادغام بیشینه، اندازۀ ورودی را تغییر می‌دهند که ویژگی‌ها در مقیاس‌های مختلف دیده شوند. لایه‌های تمام متصل، کار طبقه‌بندی ویژگی‌های استخراج‌شده را انجام می‌دهند. مدل‌های  VGG16 [8]، DarkNet [9]، ResNet [10] و AlexNet [11] ازجمله مدل‌های مشهور یادگیری عمیق‌اند.

 

۱-۲- شبکه‌های مولد رقابتی

موضوع اصلی این نوشتار، شبکه‌های مولد رقابتی[10] (GAN) نیست؛ اما با توجه به اینکه در روش پیشنهادی به کار رفته است، اشاره‌ای به این شبکه‌ها خواهیم داشت. شبکه‌های مولد رقابتی ازجمله ابداعات تأثیرگذار دهۀ اخیر در حوزۀ علوم کامپیوترند که با مقالۀ ایان گودفلو[11]، ژان پوژه-آبادی[12]، مهدی میرزامؤمن[13] و همکاران [12] روند رو به رشدی را آغاز کرده و کاربردهای متنوعی منجمله جعل تصویر و ویدئو و انتقال سبک (استایل) پیدا کرده است [13]. هدف اصلی در شبکه‌های مولد رقابتی، تولید نمونه‌های جدید از داده‌های آموزشی است؛ وقتی توزیع داده‌ها دردسترس نیست. در این روش دو شبکۀ عصبی برای تولید نمونه‌های جدید با یکدیگر به رقابت می‌پردازند؛ این دو شبکه، مولد[14] و متمایزکننده[15] نامیده می‌شوند. شبکۀ مولد تبدیل از یک بردار تصادفی به توزیع مدنظر را فرا می‌گیرد و شبکۀ متمایزکننده، نمونه‌های تولیدی شبکۀ مولد را از توزیع واقعی داده‌ها تفکیک می‌کند. آموزش شبکۀ مولد با این هدف انجام می‌شود که نمونه‌هایی تولید کند که شبکۀ متمایز‌کننده را بفریبد و متمایزکنندۀ نمونه‌های تولیدشدۀ مولد را از نمونه‌های اصلی نتواند تفکیک کند[16]. اگر G و D به‌ترتیب معرف مولد و متمایزکننده باشند، متمایزکننده به نحوی آموزش داده می‌شود که بتواند نمونه‌های از توزیع واقعی داده‌های pdata را از نمونه‌های جعلی با توزیع pg را از هم تفکیک کند. مولد، نویز zp_z->  zp_z را به‌عنوان ورودی می‌گیرد و نمونه‌های G(z) از توزیع pg را تولید می‌کند. تابع هدف GAN در زیر آمده است [26]:

(۱)

 

 

 

خروجی متمایزکننده، صفر یا یک است. پس لگاریتم آن منهای بی‌نهایت یا صفر است و درنتیجه، بیشینۀ مقدار عبارت اول صفر خواهد بود. متمایزکننده سعی در شناسایی نمونه‌های تولیدی از مولد به‌عنوان جعلی دارد (یعنی صفرکردن عبارت دوم)؛ بنابراین، در کل هدف آن بیشینه‌سازی تابع هدف است. همچنین، مولد سعی در فریب متمایزکننده را دارد که به معنی منفی بی‌نهایت‌شدن عبارت دوم یا کمینه‌کردن کل عبارت است؛ بنابراین، مولدِ بهینه، G*ی است که رابطۀ (۲)‌ زیر را برآورده سازد:

(۲)

 

 

شبکۀ اشاره‌شده در بالا لازم نیست یک شبکۀ کانولوشنی باشد. شبکه‌های مولد رقابتی با شبکه‌های از نوع کانولوشنی با نام DCGAN[17] در [14] معرفی و نسخه‌های متنوعی از شبکه‌های مولد رقابتی بر اساس آن ارائه شدند که برخی از آنها در انتقال سبک عصبی استفاده شده‌اند که در بخش بعد به آن پرداخته خواهد شد.

 

۱-۳- انتقال سبک عصبی

همان‌گونه که پیش از این ذکر شد منظور از انتقال سبک عصبی، اعمال سبک (بافت و رنگ) تصویر استایل روی تصویر محتوای ورودی با استفاده از شبکه‌های عصبی کانولوشنی است. در [6] برای نخستین‌بار این ایده مطرح شده بود؛ در یک فرآیند تکراری، خطای بازسازی[18] بین تصویر حاصله و تصاویر محتوا و سبک را کمینه می‌کند. روال کلی کار به‌صورت زیر است [13]:

  • ایجاد یک تصویر ورودی تصادفی؛
  • دادن تصویر به یک شبکۀ از پیش آموزش دیده[19]، مانند VGG؛ این شبکه در روال کار آموزش داده نخواهد شد.
  • محاسبۀ تابع زیان و مشتق‌گیری براساس پیکسل‌های ورودی؛ بنابراین، فقط ورودی‌ها به‌روزرسانی می‌شوند نه وزن‌های شبکه.

هدف، تغییر تصویر ورودی است؛ ‌به نحوی که محتوای آن از این تصویر و سبک آن از تصویر دیگر باشد. دو مسئلۀ اصلی مرتبط با محتوا و سبک وجود دارد:

ایجاد محتوا: ایجاد تصویری که محتوای آن از تصویر محتوا باشد. محتوای کلی اگر برای مثال، نشان‌دهندۀ یک منظره است، این محتوا باید حفظ شود؛ اما ظرافت‌ها و بافت و رنگ تصویر (سبک آن) باید از تصویر دیگر اخذ شود. یک تابع زیان بین تصویر محتوای ورودی و تصویر تولیدی باید کمینه شود. برای مقایسۀ محتوای دو تصویر از ویژگی‌های استخراج‌شدۀ شبکه‌های عصبی کانولوشنی استفاده می‌شود. با توجه به ساختار کلی شبکه‌های کانولوشنی که مثل یک هرم گاوسی به طرف لایه‌های آخر، تصویر کوچک‌تر می‌شود و جزئیات اصلی، حذف و کلیات آن باقی می‌ماند، لایه‌های آخر شبکه نمایانگر محتوای کلی تصویر ورودی‌اند؛ بنابراین، برای لحاظ‌کردن محتوای تصویر عموماً از لایه‌های آخر شبکه استفاده می‌شود که نمایش‌دهندۀ ویژگی‌های سطح بالاترند که گاهی به آنها ساختارهای کلان[20] هم گفته می‌شود [12]. اگر p وx  به‌ترتیب نمایانگر تصویر محتوا و تصویر تولیدشده از شبکه باشند، تابع هزینۀ این قسمت به‌صورت زیر تعریف می‌شود:

(۳)

 

 

که در آن   و  ویژگی‌های استخراج‌شده در لایۀ ام تصاویر تولیدی و محتوا (x  وp) هستند. ، تعداد فیلترها در لایۀ ام و  حاصل‌ضرب درازا و پهنای فیلترهاست. مشتق این تابع بر حسب خروجی تابع فعالیت در لایۀ ام به‌صورت زیر است:

(۴)

 

 

با روش پس انتشار خطا [1] مشتق‌گیری می‌تواند بر حسب x انجام شود.

تولید سبک (استایل یا شمایل)، ایجاد تصویری است که سبک و سیاق کلی آن مشابه سبک تصویر استایل باشد. استفاده از سبک‌های نقاشی ازجمله پراستفاده‌ترین تصاویر استایل‌اند که در انتقال سبک به کار برده می‌شوند و هدف، اعمال سبک یک نقاشی روی تصویر ورودی است. به این منظور هم از یک تابع هزینه استفاده می‌شود که تفاوت سبک تصویر استایل و تصویر تولیدی را نشان دهد. بافت و ‌رنگ مشخصه‌های اصلی سبک‌اند که با استفاده از خصوصیات آماری [15] ویژگی‌های استخراج‌شده از لایه‌های اولیۀ شبکه‌های کانولوشنی محاسبه می‌شوند. ویژگی‌های استخراج‌شده از لایه‌های اولیۀ شبکه، مشخص‌کنندۀ ویژگی‌های مکانی تصویر، همچون لبه‌ها و اشکال هندسی‌اند که به آنها ساختارهای خُرد[21] هم گفته می‌شود. برای لایۀ ام، میزان تفاوت سبک آن با سبک تصویر استایل به‌صورت زیر محاسبه می‌شود:

(۵)

 

 

که در آن  ماتریس گرام حاصل از ضرب داخلی ویژگی‌های لایۀ ام تصویر تولیدی است که به‌صورت زیر تعریف می‌شود:

(۶)

 

 

و  ماتریس گرام متناظر لایۀ ام تصویر استایل است. نکتۀ اصلی در ماتریس گرام آن است که هم‌رخدادی بافت‌های مختلف در تصویر را مشخص می‌کند؛ برای مثال، اگر بافت صورت و بافت راه‌راه سیاه و زرد با هم رخ دهند، می‌توان انتظار صورت یک ببر را داشت. تابع هزینۀ مربوط به بخش استایل به‌صورت مجموع وزن‌دار تابع رابطۀ (۵) محاسبه می‌شود:

(۷)

 

 

که میزان مطابقت هم‌رخدادی یادشده در لایه‌های مختلف دو تصویر - با ضرایب وزنی متفاوت - را محاسبه می‌کند. مشتق این تابع به‌صورت زیر است:

(۸)

 

با داشتن دو تابع هزینۀ بالا، تابع هدف مسئلۀ انتقال سبک عصبی [6] به‌صورت رابطۀ (۹) زیر خواهد بود:

(۹)

 

 

که آلفا و بتا ضرایب اهمیت دو عبارت‌اند. در فرآیند انتقال سبک، وزن‌های شبکۀ اصلی به‌روزرسانی نمی‌شوند؛ بلکه تصویر تولیدی ، متغیر مسئله است که در هر دور به‌روزرسانی می‌شود:

(۱۰)

 

 

این شیوۀ کلیِ انتقال سبک در زمینه‌های مختلفی همچون فراتفکیک‌پذیری [16]، سنتر معنایی تصویر[22][17] و ترجمۀ تصویر به تصویر[23][18] استفاده شده است. در چند سال اخیر پیشرفت‌های زیادی درخصوص شبکه‌های مولد رقابتی [17-21] و روش‌های انتقال سبک مبتنی بر این شبکه‌ها ارائه شده‌اند [21-25]. هدف این نوشتار، توضیح این شیوه‌ها نیست و به دلیل آنکه از یکی از این شیوه‌ها (مرجع [25]) برای داده‌افزایی استفاده شده است، کلیات این شیوه بیان می‌شود.

برخلاف روش‌های معمول انتقال سبک مانند [7] که یک شبکۀ کانولوشنی برای یک سبک خاص آموزش می‌بیند،‌ در [25]، یک شبکه برای انتقال استایل چندین سبک آموزش داده شده است. شیوۀ به کار برده شده در آن، مبتنی بر کارهای قبلی [17, 26] است. فرض اصلی این روش آن بوده است که استایل‌های مشابه، خصوصیات مشترکی دارند؛ برای نمونه، فرض کنید هدف، انتقال سبک نقاشی‌های با سبک امپرسیونیسم[24] (برداشت‌گرایی) کلود مونه[25] [1] روی تصویر محتواست یا باید برای هر نقاشی یک شبکۀ جدا آموزش داده شود یا با این فرض که نقاشی‌های با استایل یکسان، خروجی‌های یکسانی در برخی لایه‌های شبکۀ کانولوشنی خواهند داشت، از میانگین و انحراف معیار این خروجی‌ها برای اصلاح خروجی لایه‌های متناظر تصویر ورودی استفاده کرد. خروجی‌ این لایه‌ها ابتدا نرمال‌سازی و با پارامترهای فراگرفته‌شده از نقاشی‌ها، لغو نرمالسازی[26] انجام می‌شود. در [26] کارایی این شیوه روی نقاشی‌های مختلف و منجملۀ نقاشی‌های کلود مونه و با نرمال‌ساز نمونه‌ای شرطی[27] نشان داده شده است. هدف در این نرمال‌سازی، انتقال خروجی تابع فعالیت یک لایه x به نرمال‌شدۀ آن،z ، وابسته به سبک نقاشی s است که به‌صورت تبدیل آفین زیر انجام می‌شود:

(۱۱)

 

 

که در آن μ و σ میانگین و انحراف معیار خروجی دسته و   پارامترهای آموزش دیدۀ مبتنی بر استایل‌اند.

نرمال‌سازی می‌تواند در گروههای مختلفی همچون نورون‌ها، ویژگی‌ها و کانال‌ها انجام شود. گروه‌بندی‌های مختلف وزن‌ها در تحقیقات حوزۀ یادگیری عمیق و منجمله در کاهش تعداد پارامترهای شبکه [27] کاربرد دارد. در [25] مبتنی بر شیوۀ [17] از نرمالسازی در سطح لایه‌ها استفاده شده است. در روش پیشنهادی از این شیوه برای داده‌افزایی در مسئلۀ شناسایی آتش استفاده خواهد شد.

 

۱-۴- داده‌افزایی در یادگیری عمیق

عموم مدل‌های یادگیری عمیق به لحاظ تعداد زیاد پارامترها، نیازمند حجم فراوان داده‌های آموزشی‌اند. یکی از روش‌های استفاده‌شده برای افزایش تعداد نمونه‌های آموزشی در مواقعی که داده‌های آموزشی به اندازۀ کافی دردسترس نیستند، شیوۀ «داده‌افزایی»[28] است. انعکاس، اضافه‌کردن نویز، تغییر رنگ، تغییر اندازه و برش تصاویر آموزشیِ دردسترس ازجمله شیوه‌های داده‌افزایی هستند که در مقالۀ مروری شورتن[29] و خوشگفتار [28] بیان شده‌اند. این شیوه‌های داده‌افزایی در بسترهای مرسوم یادگیری عمیق همچون تنسورفلو[30] و پای‌تورچ[31] دردسترس‌اند. به‌تازگی به روش‌های داده‌افزایی مبتنی بر انتقال سبک توجه شده است که عموماً مبتنی بر انتقال سبک تصادفی‌اند؛ برای مثال، در کار[32] جکسون[33]، عطاپور و سایرین [29] از سبک‌های متعدد تصادفی برای تولید نمونه‌های جدید استفاده شده است. شیوۀ ایشان مبتنی بر کار قیاسی و همکاران [30] است. در روش مزبور، تصاویر آموزشی، تحت انتقال سبک تصادفی قرار می‌گیرند و تصاویر جدیدی مبتنی بر داده‌های دردسترس تولید می‌شوند؛ برای مثال، تصویر یک لیوان می‌تواند تحت انتقال سبک قرار گیرد و نمونه‌های جدیدی از تصویر لیوان به وجود آید که در مجموعۀ آموزشی نبوده‌اند. برای چنین مواردی می‌توان انتظار داشت استفاده از انتقال سبک، به تولید داده‌هایی مشابه نمونه‌های آموزشی منجر می‌شود و کمبود داده‌های آموزشی تا حدودی مرتفع شود. به این ترتیب، امکان مؤثربودن این شیوه، وابسته به نوع مسئله، تصاویر استایل و روش انتقال سبک خواهد بود.

در ادامه به‌عنوان پیشنهاد این نوشتار، نتیجۀ استفاده از انتقال سبک در شناسایی شعلۀ آتش در تصویر را خواهیم دید. پیش از آن، مرور مختصری بر موضوع شناسایی آتش می‌شود.

 

۱-۵- شناسایی آتش

شناسایی زودهنگام حریق نقش بسزایی در اطفای به‌موقع و کاهش خسارات بعدی دارد. مزیت نظارت تصویری نسبت به سایر سنجنده‌های حریق، آن است که نیازی نیست دوربین در محل حریق باشد و گرما یا دود را حس کند، کافیست محل آتش‌سوزی در معرض دید دوربین باشد. موضوع شناسایی آتش ازطریق پردازش تصاویر سابقه‌ای حدوداً بیست‌ساله دارد [31]. راهکارهای قدیمی حوزۀ بینایی ماشین عموماً مناسب شناسایی اشیای صلب‌اند. در سالیان اخیر و با توسعۀ روش‌های نوین مانند یادگیری عمیق، تشخیص اشیا یا پدیده‌هایی مانند درخت و آتش که شکل ثابتی ندارند، سهل‌الوصول‌تر شده و تحقیقات زیادی را به خود معطوف کرده است [32-34]. در [33] روش‌های متعددی در شناسایی آتش، بررسی و نتیجه گرفته شده است که روش‌های مبتنی بر شبکه‌های عصبی کانولوشنی از روش‌های سنتی پردازش تصویر کاراترند. در [32] چندین الگوریتم و مدل یادگیری عمیق برای شناسایی و پیداکردن محل شعلۀ آتش مقایسه شده‌اند: روش ‌ Faster-RCNN[35] با سه معماری VGG16 [8]، AlexNet [11] و ResNet [10] اجرا شده و الگوریتم اصلاح‌شدۀ Faster-RCNN با معماری رزنت ۱۰۱، بیشترین کارایی را داشته است. پس از آن، همین الگوریتم، با معماری VGG16 با یک دهم درصد اختلاف در رتبۀ دوم بوده است. بعد از موارد بالا الگوریتم YOLOv3 [36, 37] نسبت به سایر مدل‌های بررسی‌شده کارایی بیشتری داشته است.

در [33] چهار معماری Faster-RCNN، R-FCN [38]،  SSD [39] و YOLOv3 مقایسه قرار شده‌اند. مطابق نتایج این مقاله،‌روش YOLOv3 با میانگین دقت ۸۴.۵ درصد، بالاترین کارایی را در شناسایی آتش داشته است. به‌علاوه همین روش با سرعت پردازش ۲۸ فریم در ثانیه، سریع‌ترین روش در بین روش‌های مقایسه‌شدۀ مبتنی بر شبکه‌های عصبی کانولوشنی بوده است. در مرجع [34] برای روش بهینه‌‌شدۀ YOLO دقت ۷۶ درصد گزارش شده است. زمان آموزش روی ۱۷۲۰ تصویر و روی CPU، ۱۲ ساعت بوده است. در بخش‌های بعدی این نوشتار از YOLOv3 استفاده خواهد شد.

2- داده‌افزایی با انتقال سبک عصبی در شناسایی شعلۀ آتش

تهیۀ داده‌های آموزشی کافی و مناسب برای آموزش یک سیستم شناسایی عموماً وقتگیر و مستلزم هزینه و زمان است. هنگامی که هدف، شناسایی دقیق محل شیئ مدنظر در تصویر باشد، اشیای هدف باید در مجموعه دادگان آموزشی علامت‌گذاری شوند که وقت بیشتری نسبت به برچسب‌گذاری تصاویر نیاز دارد. در این بخش به‌عنوان شیوۀ پیشنهادی در این نوشتار، تأثیر استفاده از انتقال سبک برای افزایش نمونه تصاویر آموزشی در شناسایی آتش بررسی شده است. افزایش تعداد نمونه‌ها به گونه‌ای است که نیازی به علامت‌گذاری تصاویر جدید نخواهد بود. در ادامه از مدل YOLOv3 برای شناسایی آتش، استفاده و تأثیر استفاده از انتقال سبک برای داده‌افزایی در این شیوه بررسی شده است. به این منظور، ابتدا با مجموعه دادگان این حوزه و نحوة علامت‌گذاری تصاویر آموزشی آشنا می‌شویم و سپس مبتنی بر شیوة انتقال سبک عصبی اشاره‌شده در بخش‌های قبل، تعدادی از داده‌های آموزشی اخذشده در نور روز، به شب تبدیل می‌شوند و نتیجۀ این افزایش داده‌های آموزشی را در مسئلة شناسایی آتش خواهیم دید.

۲-۱- مجموعه دادگان شناسایی آتش

پیشنهاد این نوشتار برای استفاده از انتقال سبک به‌منظور داده‌افزایی در شناسایی آتش، تبدیل تصاویر «روز» به تصاویر «شب» است. با این فرض که تصاویر آموزشی ثبت‌شده در طی روز، بیشتر از نمونه‌های اخذشده در شب‌اند، با اعمال یک روش انتقال سبک، می‌توان کمبود نمونه‌های اخذشده در شب را برطرف کرد و افزایش کارایی سیستم شناسایی را انتظار داشت.

به جای بررسی یک سیستم شناسایی حریق همه‌منظوره که در همۀ زمان‌ها و مکان‌ها کار کند، روی موردی تمرکز خواهیم کرد که متناسب با ایدۀ این نوشتار باشد. به این منظور از تصاویری شامل شعلۀ آتش استفاده خواهد شد که در فضای باز، گرفته و عمدتاً شامل حریق خودرو در بزرگراهها یا خیابان می‌شوند؛ زیرا مایلیم انتقال سبک با تصاویر شب دردسترس روی مجموعه دادگان استفاده‌شده امکان‌پذیر باشد. فرضِ آموزش و تست یک سیستم روی مجموعه داده‌ای خاص، فرضی غیرمنطقی نیست. طراحی یک سیستم شناسایی خاص، کاراتر از یک سیستم شناسایی همه‌منظوره است؛ برای مثال، در همین مورد آتش‌سوزی، با توجه به تفاوت‌های فراوان بین محیط خانه و بیرون، نوع مادۀ در حال سوخت، رنگ و حجم شعله، حریق در یک پالایشگاه یا کارخانه یا ایستگاه انتقال گاز، قاعدتاً یک سیستم شناسایی آتش تخصصی بهتر می‌تواند جوابگو باشد. در این بخش، به مجموعه داده‌ای نیاز است که تصاویر آن تقریباً یک سبک و سیاق داشته باشند، محل شعله در تصاویر علامت‌گذاری‌شده و دردسترس عموم باشد.

در بخش‌های پیش به چند روش شناسایی آتش اشاره شد. در [33] گفته شد از بین چند مدل بررسی‌شده، YOLOv3 بیشترین کارایی را داشته است. در این مرجع به‌منظور آموزش سیستم، ۲۹۱۸۰ تصویر از منابع متعدد گردآوری و برچسب زده شده‌اند. از میان این تعداد، ۱۳۴۰۰ تصویر شامل آتش/دود بوده‌اند. مجموعه داده استفاده‌شده در مقاله فوق دردسترس عموم نبود؛ در مقالۀ مذکور به چندین مجموعه دادۀ دیگر در حوزۀ شناسایی آتش اشاره شده بود که با توجه به فرض پاراگراف قبلی، مناسب این نوشتار نیستند. مجموعه داده‌های دانشگاه کیم‌یانگ[34]، کورسیکا[35]، بیلکنت[36] و دانشگاه اسپلیت[37]، مربوط به آتش‌سوزی در جنگل است یا شامل برچسب نواحی آتش نبودند. در مرجع [40] از سه گیگابایت تصویر[38] برای آموزش استفاده شده است. چنین مجموعه داده‌هایی برای طبقه‌بندی تصاویر به دو گروه حاوی آتش یا غیر آن مناسب‌اند؛ اما برای شناسایی محل آتش به علامت‌گذاری ناحیۀ آتش نیاز دارند. برخی از مجموعه دادگان فقط شامل چندین فریم از صحنه‌های تقریباً ثابت حاوی آتش‌اند.

در [41] یک معماری سبک شناسایی آتش برای کار روی رسپبری‌پای پیشنهاد و پیاده‌سازی[39] شده است. مجموعه دادگان ارائه‌شده شامل انواع مختلفی از تصاویر حریق در اختیار عموم قرار داده شدند. برای هر تصویر ناحیۀ آتش به‌صورت دستی مشخص شده است. در این نوشتار، از بخشی از این مجموعه داده استفاده شده که از گیت‌هاب مقاله دردسترس است. 

مشخص‌کردن دستی ناحیۀ اشیای مدنظر در هر تصویر با ابزارهای مختلف مانند labelImg[40] انجام می‌شود. به کادر مشخص‌کنندۀ ناحیۀ شیئ، جعبۀ محدودکننده‌[41] گفته می‌شود. شکل ۲ دو نمونه از تصاویر مجموعه داده فوق به همراه علامت‌گذاری[42] جعبه‌های محدودکنندۀ نواحی آتش را نشان می‌دهد. این کادرها به‌عنوان علامات مرجع[43] مشخص‌کنندۀ محل درست شیئ، بعداً در روال ارزیابی استفاده خواهند شد.

 

 

 

 

(الف) دو تصویر آموزشی از مجموعه دادگان [41]

(ب) علامت گذاری نواحی دارای شعلۀ آتش با کادر مستطیلی.

شکل (2): نمونه تصاویری از مجموعه دادگان استفاده‌شده و شیوۀ علامت‌گذاری دستی نواحی آتش.

 

همان‌گونه که مشاهده می‌شود در یک تصویر ممکن است چند مورد از شیئ مدنظر وجود داشته باشد. مشخصات نواحی هر تصویر در قالب یک فایل xml‌ ذخیره می‌شود.

 

۲-۲- اعمال انتقال سبک روی مجموعه داده

از بین ۳۰۵ تصویر انتخابی، ۲۵ تصویر در شب و سایر تصاویر در روز گرفته شده‌اند. ۸۵ تصویر روز، انتخاب و با استفاده از انتقال سبک عصبی، به تصویر شب تبدیل شدند. شکل ۳ دو تصویر نمونه را نشان می‌دهد که تحت انتقال سبک عصبی با دو روش قرار گرفته‌‌اند. سطرهای با شمارۀ ۱ تا ۴ در شکل ۳ به‌ترتیب تصویر محتوای ورودی، تصویر استایل، نتیجۀ انتقال سبک با روش [7] و نتیجۀ انتقال سبک با روش [25] روی تصاویر ستون‌های (الف) و (ب) را نشان می‌دهند. تصاویر استایل استفاده‌شده، از مجموعه دادگان برکلی[44] است که در مرجع [18] استفاده شده است. حجم کل این مجموع دادگان ۹ گیگابایت است[45] که بخشی از آنها برای استفاده در این نوشتار در گیت‌هاب نگارنده[46] قرار داده شده است. برای هر تصویر روز، یک تصویر شب، تصویر استایل آن در نظر گرفته می‌شود و عمل انتقال سَبْک روی آن به‌منظور تبدیل تصویر روز به تصویر شب انجام می‌شود. تصویر شب به‌صورت تصادفی از مجموعه تصاویر شب انتخاب شده است. انتقال سبک با دو شیوۀ [7, 25] انجام و نتایج در شکل ۳ نشان داده شده است. با توجه به شکل ۳، روش انتقال سبک [25] نتایج بهتری نسبت به روش [7] در این کاربرد تولید کرده است.

 

 

۱. تصویر محتوای ورودی

 

 

۲. تصویر استایل

 

 

۳. انتقال سبک با روش [7]

 

 

۴. انتقال سبک با روش [25]

 

 

 

(الف)

                                      (ب)

شکل (3): نتیجۀ اعمال دو روش انتقال سبک عصبی روی نمونه تصاویری از مجموعه دادگان استفاده‌شده.

 

برای هر دو روش از مدل‌های از پیش آموزش دیدۀ نگارندگان آنها در بستر پای‌تورچ استفاده شده است. فایل‌های مدل‌های آموزش‌دیدۀ این شیوه که در انتقال سبک به کار می‌روند، حدود ۵۰ مگابایت است؛ در حالی که فایل مدل مولد روش [25] حدود یک و نیم گیگابایت است. با توجه به اینکه روش اخیر روی تبدیل تصاویر روز به شب آموزش دیده، نتایج بهتری به دست داده است؛ بنابراین، در ادامه از این شیوه برای تبدیل تصاویر روز به شب استفاده شده است.

 

۲-۳- شناسایی آتش در تصویر

همان‌گونه که پیش‌تر ذکر شد روش‌های مبتنی بر شبکه‌های عصبی کانولوشنی در مقایسه با روش‌های مرسوم پردازش تصویر، کارایی بهتری در شناسایی آتش در تصویر دارند [33]. در ادامه برای آموزش و شناسایی آتش در تصاویر از کتابخانه منبع باز ImageAI[xlvii] استفاده خواهد شد. مزیتی که شیوۀ انتقال سبک در تبدیل تصاویر روز به شب در این خصوص دارد، آن است که نواحی از قبل مشخص شده به‌عنوان حریق (شکل ۲) قابلیت استفاده را برای تصاویر تولیدی با انتقال سبک دارند (دو سطر آخر شکل ۳). به‌علاوه، این نکته که سایر نواحی تصویر شامل آتش نیستند، نورهای تولیدشده در عمل انتقال سبک، به‌عنوان نواحی که آتش نیستند، در فرآیند آموزش در نظر گرفته خواهند شد. برای مثال، با دقت در تصاویر سطر آخر شکل ۳، ملاحظه می‌شود به‌جز نور چراغ‌های ماشین‌ها و نور چراغ گردان ماشین آتش‌نشانی در ستون (الف)‌، نورهای تصنعی دیگری منبعث از تصاویر استایل به این تصاویر اضافه شده‌اند که چون جزو نواحی آتش نیستند، در فرآیند آموزش به‌عنوان آتش نباید تلقی شوند و مدل آموزشی باید در برابر چنین نورهایی که درواقع آتش کاذب‌اند، مقاوم‌تر شود.

 

۲-۴- نتایج اجرا و ارزیابی

همان‌گونه که پیش‌تر ذکر شد انعکاس، دوران، تغییر اندازه و برش ازجمله روش‌های معمول داده‌افزایی در حوزۀ یادگیری عمیق‌اند که وابسته به کاربرد مدنظر همه یا برخی از آنها روی تصاویر آموزشی اعمال می‌شوند؛ برای مثال، اگر کاربرد مدنظر شناسایی عابر پیاده باشد، انعکاس افقی تصویر مناسب است؛ اما انعکاس در راستای محور yها راهگشا نخواهد بود. به‌منظور ارزیابی کارایی سیستم پیشنهادی، چهار روش زیر در شناسایی آتش بررسی خواهند شد:

  • بدون هیچ‌گونه داده‌افزایی (Aug-None)
  • داده‌افزایی از نوع تغییر اندازه و برش (Aug-Scale)
  • داده‌افزایی از نوع انتقال سبک (Aug-D2N)
  • داده‌افزایی از نوع انتقال سبک + تغییر اندازه و برش[xlviii] (Aug-D2N-Scale)

چارچوب کلی کار، مطابق توضیحات بخش‌های قبلی در شکل ۴ نشان داده شده است که بخش اول آن بسته به هر یک از چهار روش یادشده تغییر خواهد کرد. همۀ برنامه‌ها روی سرورهای گوگل کولب با مشخصات ذکرشده در جدول ۱ اجرا شده‌اند.

 

شکل (4): چارچوب کلی روش پیشنهادی

 

جدول (1): مشخصات دستگاه

CPU

RAM

GPU

Intel Xeon CPU @ 2.20GHz

13 GB

Tesla T4, 15 GB

 

یک مدل از قبل آموزش دیدۀ YOLOv3 روی تصاویر طبیعی به‌عنوان مدل اولیۀ آموزش انتخاب شد. با توجه به اینکه معماری این مدل متفاوت با مدل‌های کراس[xlix] استفاده‌شده برای آموزش مدل است، ساختار این مدل به قالب قابل خواندن در کراس تغییر یافت.

در هر روش، ابتدا مدل روی تصاویر مجموعه دادگان انتخابی آموزش داده می‌شود. پس از ده اپُک[l] مدل با کمترین خطا روی داده‌های اعتبارسنجی[li] به‌عنوان مدل نهایی انتخاب می‌شود. روال کلی، همان فرم نمایش داده شده در شکل ۴ است. تعداد تصاویر اعتبارسنجی، ۶۰ نمونه بوده است. برنامه مربوط به آموزش شبکه از گیت‌هاب نگارنده دردسترس و اجراشدنی است[lii].

در روش (آ)، آموزش روی ۳۰۵ تصویر آموزشی و بدون هیچ داده‌افزایی صورت پذیرفته است (با نام Aug-None). روش (ب)، عیناً مشابه روش (آ) بوده است؛ با این تفاوت که در ۳۰ درصد مواقع، تصویر آموزشی از داده‌افزایی از نوع تغییر اندازه و برش تأثیر گرفته است. چون ده اپک برنامه آموزش داده می‌شود، هر تصویر، هم با اندازۀ اصلی و هم دست‌کم یک بار با تغییر اندازه و برش در آموزش مشارکت داشته است. این شیوه Aug-Scale نامیده شده است. پارامترهای اصلی برنامه در جدول ۲ آمده‌‌اند.

 

جدول (2): پارامترهای اجرا

پارامتر

مقدار

بستر برنامه‌نویسی

تنسورفلو

تعداد تصاویر آموزشی برای روش‌های (آ) و (ب)

۳۰۵

تعداد تصاویر روز به شب شده در روش‌های (ج) و (د)

۸۵

تعداد اپک آموزشی

۱۰

احتمال اعمال داده‌افزایی با روش Scale&Crop

۳۰٪

بازۀ تغییر اندازه

[۲و۰.۲۵]

نرخ یادگیری

۰.۰۰۰۰۱

حد آستانه IoU

۰.۲

 

در روش (ج) با نام Aug-D2N[liii]، ۸۵ تصویر از ۳۰۵ تصویر (حدود ۳۰ درصد) تحت انتقال سبک عصبی قرار گرفتند و به مجموعه دادگان آموزشی اضافه شدند. در روش (د) با نام Aug-D2N-Scale، مشابه شیوۀ (ب) اجازۀ تغییر اندازه و برش به تصاویر آموزشی (کل ۳۹۰ تصویر) داده می‌شود.

روند کاهش مقدار تابع هزینۀ[liv] شبکه برای چهار مدل فوق در شکل ۵ نمایش داده شده است. همان‌گونه که مشاهده می‌شود تغییرات تابع هزینه در چهار مدل تقریباً مشابه هم بوده‌‌اند.

 

 

شکل (5): نمودار کاهش مقدار تابع هزینه در حین آموزش شبکه برای چهار مدل بررسی‌شده.

 

برای ارزیابی دقیق‌تر، مدل انتخابی هر روش با معیارهای مرسوم این حوزه مقایسه خواهند شد. محاسبۀ دقت در سیستم‌های شناسایی محل شیئ مبتنی بر جعبۀ محدودکنندۀ شیئ است. ابتدا تعریف چند معیار، مرور و سپس «میانگین دقت[lv]» ذکر شده‌اند.

اشتراک به اجتماع (IoU[lvi]): معیاری است که متناسب با میزان هم‌پوشانی جعبۀ محدودکنندۀ مرجع[lvii] و جعبۀ محدودکنندۀ حاصل از مدل است و به‌صورت زیر محاسبه می‌شود:

(۱۲)

IoU = Area of intersection/Area of union

 

اگر bgt  مشخص‌کنندۀ کادر مرجع شیئ و bp مشخص‌کنندۀ کادر پیش‌بینی شده باشد، IoU به‌صورت زیر بیان می‌شود:

(۱۳)

IoU = Area(bgt bp)/ Area(bgtbp)

 

اگر IoU از حد آستانۀ خاصی بیشتر باشد، مورد شناسایی‌شده به‌عنوان تشخیص درست منظور خواهد شد. حد آستانه، عددی عموماً در بازۀ ۰.۰۵ تا ۰.۹۵ است که هر چه بیشتر باشد، در قبول ناحیۀ شناسایی‌شده به‌عنوان درست، سخت‌گیرانه‌تر عمل می‌کند. وابسته به مقدار این حد آستانه میزان دقت برآوردشده متفاوت خواهد شد؛ بنابراین، میانگین دقت براساس سطح زیر منحنی درستی - نرخ یادآوری[lviii] محاسبه می‌شود. به این ترتیب که در سطوح مختلف IoU در بازه [0,1] تعداد مثبت‌های صادق[lix]، مثبت‌های کاذب[lx] و منفی‌های کاذب[lxi] و براساس آنها درستی و نرخ یادآوری محاسبه می‌شوند:

(۱۴)

Precision = TP/(TP+FP)      درستی:

Recall = TP/(TP+FN)  نرخ یادآوری:

 

سطح زیر منحنی درستی - نرخ یادآوری، میانگین دقت (AP) است که تعریف عمومی آن به‌صورت زیر است:

(۱۵)

 

 

که منظور از p و r در رابطۀ بالا همان precision ‌و recall یادشده‌اند.

با محاسبۀ معیارهای درستی و نرخ یادآوری برای چهار شیوۀ مورد بحث، میانگین دقت برای هر دو مدل مبتنی بر روش پیشنهادیِ داده‌افزایی با انتقال سبک، بیشتر از دو روش دیگر بوده است (شکل ۶). افزایش دقت روش داده‌افزایی تغییر اندازه و برش (Aug-Scale) نسبت به روش بدون داده‌افزایی Aug-None، کمتر از ۴ درصد (۰.۰۳۵) بوده است؛ در حالی که افزایش دقت روش پیشنهادیِ Aug-D2N نسبت به روش بدون داده‌افزایی Aug-None بیش از ۸ درصد بوده است؛ به این معنی که شیوۀ پیشنهادی به‌عنوان یک روش داده‌افزایی در مسئلۀ شناسایی آتش مؤثرتر از روش تغییر اندازه و برش است.

به این نکته باید دقت داشت که صِرف افزایش دقت شیوۀ پیشنهادی نسبت به روش بدون داده‌افزایی، حتی اگر میزان افزایش دقت آن از میزان افزایش دقت روش تغییر اندازه هم کمتر می‌بود، باز هم شیوۀ پیشنهادی به‌عنوان یک روش داده‌افزایی پذیرفتنی بود؛ زیرا روش‌های داده‌افزایی می‌توانند مستقل از هم به کار برده شوند. نوع داده‌افزایی که روش پیشنهادی می‌تواند انجام دهد، انجام‌پذیر با روش تغییر اندازه نیست و برعکس.

به‌منظور بررسی تأثیر ترکیب دو روش پیشنهادی و روش تغییر اندازه، روش تغییر اندازه روی ۳۹۰ تصویر حاصل از روش پیشنهادی اعمال شده است (با همان احتمال پیشین). این روش با نام Aug-D2N-Scale در مقایسه با روش مبتنی بر تغییر اندازه حدود ۷ درصد افزایش دقت داشته است که نشان‌دهندۀ کارایی روش پیشنهادی در ترکیب با روش تغییر اندازه است.

در ادامه برخی از خروجی‌های دو روش (ب) و (د) یعنی Aug-Scale و Aug-D2N-Scale ملاحظه می‌شود. با معیار میانگین دقت یادشده، روش دوم حدود ۷ درصد افزایش دقت داشته است.

 

 

شکل (6): مقایسۀ دقت نهایی دو مدل در شناسایی ناحیۀ آتش، مبتنی بر معیار میانگین دقت (Average Precision).

 

شکل ۷ نتیجۀ اجرای دو مدل روی چند تصویر نمونه را نشان می‌دهد. ستون (الف) نتایج مدل Aug-Scale و  ستون (ب) نتایج مدل پیشنهادی است که تعدادی از تصاویر آموزشی روز با روش انتقال سبک عصبی به شب تبدیل شده‌اند. همۀ پارامترهای برنامه و نمونه‌های اعتبارسنجی و آزمون، در هر دو مدل یکی و بدون تغییر بوده‌اند. در دو سطر اول، روش پیشنهادی عملکرد بهتری داشته است. در دو سطر بعد، روش اول، در دو سطر ۵ و ۶، هر دو روش شعله را شناسایی کرده‌اند و در دو سطر آخر هر دو ناموفق بوده‌اند. یک نکته شایان توجه، شناسایی بهتر روش پیشنهادی در سطر پنجم است. بدون داده‌افزایی پیشنهادی (ستون اول) چراغ‌های گردان خودرو به اشتباه، شعلۀ آتش شناسایی شده‌اند.

در مجموعه تصاویر آزمون، ۱۶ تصویر شب وجود داشته است. روش پیشنهادی توانسته است در ۸ مورد، شعلۀ آتش را شناسایی کند؛ در حالی که بدون روش پیشنهادی، فقط دو نمونه شناسایی درست داشته است. کارایی بهتر روش پیشنهادی در تصاویر شب به دلیل افزایش نمونه‌های شب با روش انتقال سبک روز به شب است. شکل ۸ چهار نمونه از تصاویر شب را نشان می‌دهد که روش پیشنهادی موفق بوده است.

 

۱

 

 

۲

 

 

۳

 

 

۴

 

 

۵

 

 

۶

 

 

۷

 

 

۸

 

 

 

(الف) روش Aug-Scale

(ب) روش پیشنهادی (Aug-D2N-Scale)

 

شکل (7): نتایج شناسایی آتش با دو روش Aug-Scale و Aug-D2N-Scale

 

۱

 

 

۲

 

 

۳

 

 

۴

 

 

 

(الف) روش Aug-Scale

(ب) روش پیشنهادی (Aug-D2N-Scale)

 

شکل (8): نتایج شناسایی آتش در شب توسط دو روش Aug-Scale و Aug-D2N-Scale

 

زمان اجرا

با افزایش ۸۵ تصویر به ۳۰۵ تصویر مجموعه دادگان، حجم داده‌ها ۲۸ درصد اضافه شد که طبعاً زمان آموزش نیز زیاد خواهد شد. زمان آموزش هر دو مدل (آ) و (ب) روی ۳۰۵ تصویر در ۱۰ اپک،‌ حدود ۳۸ دقیقه و زمان اجرای مدل‌های پیشنهادی (ج) و (د) روی ۳۰۵+۸۵=۳۹۰ تصویر (۲۸ درصد افزایش تعداد تصاویر)، حدود ۴۸ دقیقه بوده است که معادل 26 درصد افزایش زمان آموزش است (شکل ۹)؛ اما ساختار و حجم هر دو مدل یکی بوده (۲۴۷ مگابایت) و پس از آموزش، زمان شناسایی یکسان است (۷.۵ ثانیه برای ۶۰ تصویر) و به‌صورت معمول، آنچه مهم است زمان اجرای مدل است که هر دو سرعت یکسانی در شناسایی محل حریق دارند (۸ تصویر در ثانیه).

 

شکل (9): زمان آموزش بر حسب دقیقه

 

انتقال سبک نامناسب

درنتیجۀ اعمال انتقال سبک روی برخی از تصاویر،‌ ناحیۀ شعله در تصویر حاصله تا حدود زیادی رؤیت‌ناپذیر شده بود. شکل ۱۰ دو نمونه از چنین مواردی را نشان می‌دهد. در روال آموزش اشاره‌شده در بخش‌های قبل،‌ از تمام تصاویر روز به شب شده و منجمله این دو تصویر استفاده شده بود؛ اما در حالت کلی باید یا چنین تصاویر تولیدشده‌ای به‌صورت دستی از مجموعه دادگان حذف شوند یا راهکاری برای حفظ ناحیۀ شعلۀ آتش در هنگام انتقال سبک اندیشیده شود که ازجمله کارهای آتی می‌تواند باشد.

 

 
 

تصویر محتوا

تصویر استایل

نتیجه انتقال سبک

شکل (10): برخی از تبدیل‌های نامناسب روز به شب که در تصویر حاصل (ستون سوم) ناحیۀ آتش تقریباً محو شده‌ است.

 3- جمع‌بندی

با ظهور شبکه‌های عصبی کانولوشنی در حوزۀ شناسایی اشیا در تصاویر جهش بزرگی رخ داده است. بسیاری از مدل‌های شبکه‌های عصبی کانولوشنی شامل میلیو‌ن‌ها پارامتر بوده که نیازمند حجم زیادی دادۀ آموزشی‌اند. افزایش تعداد تصاویر آموزشی ازطریق اعمال تبدیلات هندسی روی تصاویر آموزشی ازجمله روش‌های مرسوم داده‌افزایی در یادگیری عمیق است. به‌تازگی روش‌های انتقال سبک هم برای افزایش تعداد داده‌ها به کار گرفته شده‌اند. در این مقاله دو روش انتقال سبک عصبی برای تبدیل تصاویر روز به شب به کار گرفته شدند. روشی که نتایج بصری بهتری تولید کرده بود به‌عنوان شیوۀ داده‌افزایی در شناسایی آتش به کار گرفته شد. نتایج آزمایشات انجام‌شده نشان دادند در این کاربرد خاص شیوۀ پیشنهادی به افزایش دقت شناسایی منجر می‌شود.

روش انتقال سبک در برابر روش‌های معمول داده‌افزایی در یادگیری عمیق (همچون برش تصویر، تبدیلات هندسی و تغییر رنگ) نیست؛ بنابراین، بحث مقایسۀ این دو شیوه مطرح نیست. شیوه‌های مرسوم داده‌افزایی روی تصاویر اضافه‌شده با انتقال سبک هم اعمال می‌شود؛ با این حال،‌ شیوۀ پیشنهادی با روش داده‌افزایی تغییر اندازه و برش مقایسه شد که نتایج بهتری از آن به دست داد.

هدف در نوشتار حاضر، ایجاد بهترین مدل برای شناسایی آتش نبوده است؛ به همین دلیل روی مواردی همچون تعداد تصاویر آموزشی، تعداد اپک آموزشی، پارامترهای آموزش مدل، نرخ یادگیری، توابع فعالیت و الگوریتم‌های بهینه‌سازی مطالعۀ خاصی انجام نشده است.

برای مقایسۀ کارایی روش داده‌افزایی مبتنی بر تغییر سبک روز به شب در شناسایی آتش، تمام تنظیمات و پارامترهای آموزشی مدل‌های مختلف بررسی‌شده مانند هم در نظر گرفته شد و نشان داده شد افزایش نمونه‌ها با روش انتقال سبک عصبی [25] کارایی سیستم شناسایی آتش را ارتقا می‌دهد. یک مزیت روش پیشنهادی آن است که می‌توان از همان جعبه‌های مشخص‌کنندۀ نواحی آتش در تصاویر آموزشی روز، برای متناظر شب آنها هم استفاده کرد؛ بدون آنکه نیاز به علامت‌گذاری مجدد این تصاویر باشد. به‌علاوه با توجه به اینکه تصاویر استایل شب استفاده‌شده شامل نورهای چراغ و نور لامپ‌ها بودند و نورهای مشابه تصنعی در تصاویر روز به شب شده ایجاد می‌شود، به‌صورت ضمنی روال آموزش، چنین نورهایی را از آتش تفکیک خواهد کرد.

شیوۀ انتقال سبک بررسی‌شده در این نوشتار می‌تواند در دیگر مسائل شناسایی اشیا در تصاویر هم استفاده شود که فاقد داده‌های آموزشی کافی از برخی دسته‌ها هستند؛ برای مثال، ممکن است در یک سیستم شناسایی برگ یا گیاه مریض از سالم، تعداد نمونه‌های مریض کمتر باشند که می‌توان با یک روش انتقال سبک، تصاویر سالم را به مریض تبدیل کرد و تعداد نمونه‌های آموزشی را افزایش داد. کاربردهای مشابه دیگری همچون شناسایی کاشی معیوب از کاشی سالم و شناسایی خودروی آسیب‌دیده از خودروی سالم هم می‌توان برای ایدۀ این نوشتار در نظر گرفت. ازجمله کارهای آتی می‌توان به بهبود عملکرد روش انتقال سبک اشاره کرد؛ به نحوی که ناحیۀ شعلۀ آتش در تصاویر روز، کمترین تأثیر را بپذیرند. در حال حاضر ناحیۀ شعله در تصاویر تولیدشده با انتقال سبک، ‌مقداری تصنعی‌اند. استفاده از فضاهای رنگی دیگر، پیداکردن بهترین پارامترهای شبکه و استفاده از تصاویر آموزشی بیشتر، مواردی‌اند که به‌منظور حصول به یک سیستم شناسایی آتش بهینه به بررسی بیشتر نیاز دارد که موضوع این نوشتار نیست.

 

سپاسگزاری

از داوران گرامی که با نظرات سازندۀ خود موجبات بهترشدن نوشتار حاضر را فراهم کردند، سپاسگزارم.

 

[1] تاریخ ارسال مقاله: 21/04/1400

تاریخ پذیرش مقاله: 10/07/1400

نام نویسندۀ مسئول: محمود امین‌طوسی

نشانی نویسندۀ مسئول: ایران – سبزواری- دانشگاه حکیم سبزوار - دانشکده ریاضی و علوم کامپیوتر - گروه علوم کامپیوتر

 

[1] Neural Style Transfer (NST)

[2] Gatys

[3] Content

[4] Style

[5] حق نشر تصویر روباه متعلق به مجید مؤمنی‌مقدم، عضو هیات علمی گروه زیست‌شناسی دانشگاه حکیم سبزواری است.

[6] Object Detection and Localization

[7] Over Fitting

[8] https://github.com/mamintoosi/MMM-Artistic-photoes

[9] برای آشنایی بیشتر با معماری این شبکه می‌توان به منابع متعدد موجود منجمله سایت زیر مراجعه کرد:

VGG16 - Convolutional Network for Classification and Detection (neurohive.io)

[10] Adversarial Generative Networks (GAN)

[11] Ian Goodfellow

[12] Jean Pouget-Abadie

[13] Mehdi Mirza [Momen]: https://memimo.net

[14] Generator

[15] Discriminator

[16] Generative Adversarial Networks with Python (machinelearningmastery.com)

[17] Deep Convolutional Generative Adversarial Networks

[18] Reconstruction Error

[19] Pretrained Network

[20] Macro Structures

[21] Micro Structures

[22] Semantic Image Synthesis

[23] Image to Image Translation

[24] Impressionism

[25] Claude Monet

[26] Denormalization

[27] Conditional Instance Normalization

[28] Data Augmentation

[29] Shorten

[30] TensorFlow: https://www.tensorflow.org

[31] PyTorch: https://pytorch.org

[32] https://github.com/philipjackson/style-augmentation

[33] Jakson

[34] Computer Vision and Pattern Recognition Laboratory Homepage (kmu.ac.kr)

[35] Corsican Fire Database (univ-corse.fr)

[36] Computer Vision Based Fire Detection Software (bilkent.edu.tr)

[37] Welcome to the Wildfire Observers and Smoke Recognition Homepage (fesb.hr)

[38] bubblebeam/Inferno-Realtime-Fire-detection-using-CNNs: FPGA Deployable Fire Detection Model for Real-Time Video Surveillance Systems Using Convolutional Neural Networks (github.com)

[39] arpit-jadon/FireNet-LightWeight-Network-for-Fire-Detection (github.com)

[40] tzutalin/labelImg: 🖍️ LabelImg is a graphical image annotation tool and label object bounding boxes in images (github.com)

[41] Bounding Box

[42] Annotating

[43] Ground Truth Annotations

[44] Berkeley DeepDrive

[45] https://www.kaggle.com/solesensei/solesensei_bdd100k

[46] datasets/day2night at main · mamintoosi/datasets (github.com)

[xlvii] OlafenwaMoses/ImageAI: A python library built to empower developers to build applications and systems with self-contained Computer Vision capabilities (github.com)

[xlviii] Scale & Crop

[xlix] Keras: Keras: the Python deep learning API

[l] Epoch

[li] Validation Set

[lii] https://github.com/mamintoosi/ST-for-DA-in-FD

[liii] Day 2 Night (D2N)

[liv] Loss Function

[lv] Average Precision (AP)

[lvi] Intersection over Union

[lvii] Ground Truth Bounding Boxes

[lviii] Precision-Recall

[lix] True Positive (TP)

[lx] False Positive (FP)

[lxi] False Negative (FN)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • Amintoosi, "Application of Taylor Series in Reducing the Size of Convolutional Neural Networks to Classify Impressionist and Miniature Paintings", Mathematics and Society, Vol. 5, No. 1, pp. 1-16, 2020
  • Sheykhivand, S. Meshgini, and Z. Mousavi, "Automatic Detection of Various Epileptic Seizures from EEG Signal Using Deep Learning Networks," Computational Intelligence in Electrical Engineering, Vol. 11, No. 3, pp. 1-12, 2020.
  • J. Burt and E. H. Adelson, "A multiresolution spline with application to image mosaics," ACM Trans. Graph., Vol. 2, No. 4, pp. 217–236, 1983.
  • Hertzmann, C. E. Jacobs, N. Oliver, B. Curless, and D. H. Salesin, "Image analogies," presented at the Proceedings of the 28th annual conference on Computer graphics and interactive techniques, 2001.
  • T. Freeman, T. R. Jones, and E. C. Pasztor, "Example-Based Super-Resolution," IEEE Comput. Graph. Appl., Vol. 22, No. 2, pp. 56–65, 2002, doi: 10.1109/38.988747.
  • A. Gatys, A. S. Ecker, and M. Bethge, "Image Style Transfer Using Convolutional Neural Networks," in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 27-30 June 2016 2016, pp. 241
  • Li, S. Liu, J. Kautz, and M. Yang, "Learning Linear Transformations for Fast Image and Video Style Transfer," in 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 15-20, 2019, pp. 3804-3812.
  • Simonyan and A. Zisserman, "Very Deep Convolutional Networks for Large-Scale Image Recognition," 2015, in International Conference on Learning Representations.
  • Redmon and A. Farhadi, "YOLO9000: Better, Faster, Stronger," CVPR, 2017.
  • He, X. Zhang, S. Ren, and J. Sun, "Deep Residual Learning for Image Recognition," in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 27-30 June 2016 2016, pp. 770-778.
  • Krizhevsky, I. Sutskever, and G. E. Hinton, "ImageNet Classification with Deep Convolutional Neural Networks," in Advances in Neural Information Processing Systems 25, F. Pereira, C. J. C. Burges, L. Bottou, and K. Q. Weinberger Eds.: Curran Associates, Inc., 2012, pp. 1097-1105.
  • J. Goodfellow et al., "Generative adversarial nets," presented at the Proceedings of the 27th International Conference on Neural Information Processing Systems – Vol. 2, Montreal, Canada, 2014.
  • Chollet, Deep Learning with Python. Manning Publications Co., 2017.
  • Radford, L. Metz, and S. Chintala, "Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks," 2016. [Online]. Available: http://arxiv.org/abs/1511.06434.
  • Portilla and E. P. Simoncelli, "A Parametric Texture Model Based on Joint Statistics of Complex Wavelet Coefficients," International Journal of Computer Vision, Vol. 40, No. 1, pp. 49-70, 2000.
  • Johnson, A. Alahi, and L. Fei-Fei, "Perceptual losses for real-time style transfer and super-resolution," in 14th European Conference on Computer Vision, B. Leibe, J. Matas, N. Sebe, and M. Welling Eds., Lecture Notes in Computer Science. Amsterdam, 2016. Springer.
  • Park, M.-Y. Liu, T. Wang, and J.-Y. Zhu, "Semantic Image Synthesis With Spatially-Adaptive Normalization," 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2332-2341, 2019.
  • Yi, H. Zhang, P. Tan, and M. Gong, "DualGAN: Unsupervised Dual Learning for Image-to-Image Translation," in 2017 IEEE International Conference on Computer Vision (ICCV), 22-29 Oct. 2017 2017, pp. 2868-2876.
  • Arjovsky, S. Chintala, and L. Bottou, "Wasserstein Generative Adversarial Networks," presented at the Proceedings of the 34th International Conference on Machine Learning, Proceedings of Machine Learning Research, 2017.
  • Perarnau, J. Van De Weijer, B. Raducanu, and J. M. Álvarez, "Invertible conditional gans for image editing," arXiv preprint arXiv:1611.06355, 2016.
  • Karras, S. Laine, and T. Aila, "A Style-Based Generator Architecture for Generative Adversarial Networks," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 202x, no. Per-Print, p. 1, 202x.
  • Jing, Y. Yang, Z. Feng, J. Ye, Y. Yu, and M. Song, "Neural Style Transfer: A Review," IEEE Transactions on Visualization and Computer Graphics, vol. 26, no. 11, pp. 3365-3385, 2020.
  • Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros, "Image-to-image translation with conditional adversarial networks," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 1125-1134.
  • -Y. Zhu, T. Park, P. Isola, and A. A. Efros, "Unpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks," 2017 IEEE International Conference on Computer Vision (ICCV), pp. 2242-2251, 2017.
  • Jiang, C. Zhang, M. Huang, C. Liu, J. Shi, and C. C. Loy, "TSIT: A Simple and Versatile Framework for Image-to-Image Translation," in 16th European Conference on Computer Vision, Vol. 12348, A. Vedaldi, H. Bischof, T. Brox, and J.-M. Frahm Eds., (Lecture Notes in Computer Science, UK, 2020, pp. 206-222. Springer.
  • Dumoulin, J. Shlens, and M. Kudlur, "A Learned Representation For Artistic Style, International Conference on Learning Representations 2017 (Conference Track)," 2017.
  • Amintoosi, "Combining a Regularization Method and the Optimal Brain Damage Method for Reducing a Deep Learning Model Size," Journal of Machine Vision and Image Processing, Vol. Accepted, p. (In Persian), 202x. Iranian Society of Machine Vision and Image Processing.
  • Shorten and T. M. Khoshgoftaar, "A survey on Image Data Augmentation for Deep Learning," Journal of Big Data, Vol. 6, No. 1, p. 60, 2019/07/06 2019.
  • Jackson, A. Atapour-Abarghouei, S. Bonner, T. Breckon, and B. Obara, "Style augmentation : data augmentation via style randomization," presented at the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Deep Vision, Long Beach, CA, USA, 2019.
  • Ghiasi, H. Lee, M. Kudlur, V. Dumoulin, and J. Shlens, "Exploring the structure of a real-time, arbitrary neural artistic stylization network," CoRR, Vol. abs/1705.06830, / 2017.
  • Vicente and P. Guillemant, "An image processing technique for automatically detecting forest fire," International Journal of Thermal Sciences, Vol. 41, No. 12, pp. 1113 - 1120, 2002.
  • Barmpoutis, K. Dimitropoulos, K. Kaza, and N. Grammalidis, "Fire Detection from Images Using Faster R-CNN and Multidimensional Texture Analysis," presented at the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019.
  • Li and W. Zhao, "Image fire detection algorithms based on convolutional neural networks," Case Studies in Thermal Engineering, Vol. 19, p. 100625, 2020.
  • Shen, X. Chen, M. Nguyen, and W. Q. Yan, "Flame detection using deep learning," presented at the 4th International Conference on Control, Automation and Robotics (ICCAR), 2018.
  • Ren, K. He, R. Girshick, and J. Sun, "Faster R-CNN: towards real-time object detection with region proposal networks," presented at the Proceedings of the 28th International Conference on Neural Information Processing Systems – Vol. 1, Montreal, Canada, 2015.
  • Redmon, S. Divvala, R. Girshick, and A. Farhadi, "You Only Look Once: Unified, Real-Time Object Detection," presented at the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.
  • Redmon and A. Farhadi, "Yolov3: An incremental improvement," 2018.
  • Dai, Y. Li, K. He, and J. Sun, "R-FCN: object detection via region-based fully convolutional networks," presented at the Proceedings of the 30th International Conference on Neural Information Processing Systems, Barcelona, Spain, 2016.
  • Liu et al., "SSD: Single Shot MultiBox Detector," in Computer Vision – ECCV 2016. ECCV 2016. Lecture Notes in Computer Science, L. B., M. J., S. N., and W. M., Eds., 2016, Springer, pp. 21-37
  • Mukhopadhyay, R. Iyer, S. Kadam, and R. Koli, "FPGA Deployable Fire Detection Model for Real-Time Video Surveillance Systems Using Convolutional Neural Networks," in 2019 Global Conference for Advancement in Technology (GCAT), 18-20 Oct. 2019 2019, pp. 1-7
  • Jadon, M. Omama, A. Varshney, M. S. Ansari, and R. Sharma, "FireNet: A Specialized Lightweight Fire & Smoke Detection Model for Real-Time IoT Applications," ed: arXiv preprint arXiv:1905.11922, 2019.