Variational Generative Adversarial Networks for Preventing Mode Collapse

Document Type : Research Article

Authors

Computer Engineering Department, Yazd University, Yazd, Iran

Abstract

Generative models try to obtain a probability distribution that is similar to that of observed data. Two different solutions have been proposed in this regard in recent years: one is to minimize the divergence (distance) between the two distributions by maximizing the variational lower bound, and the other is to implicitly reduce the distance between the two distributions through adversarial processes. One of the problems in generative adversarial networks (GANs) is the mode collapse. Mode collapse is a phenomenon in which, for various inputs, the generative model generates low variety or similar images. This paper tries to provide a solution to the mode collapse problem proposing a novel method called variational generative adversarial networks (VGANs). This method exploits variational autoencoders to initialize GANs. In other words, in addition to maximizing the variational lower bound, it also implicitly reduces the distance between the two distributions. Experimental results show that this method can deal with the mode collapse problem better than the state-of-the-art. Moreover, in the qualitative analysis, according to a survey of 136 people on the authenticity of the generated images, the proposed method can generate images more similar to real ones.

Keywords


  • مقدمه[1]

از سال 2006 یادگیری عمیق به‌عنوان یک حوزۀ جدید در تحقیقات یادگیری ماشین شناخته شده است. تکنیک‌های مربوط به آن در سال‌های اخیر توسعه پیدا کرده و در کاربردهای مختلفی از پردازش اطلاعات و پردازش سیگنال استفاده شده است [1]–[4]. به‌تازگی گونۀ خاصی از شبکه‌های یادگیری عمیق با عنوان شبکه‌های تخاصمی مولد[1] یا به‌اختصار GANs معرفی شده است [5], [6]. شبکه‌های تخاصمی مولد درحقیقت یک چارچوب هستند که مدل‌های مولد را براساس یک فرآیند تخاصمی می‌سازند. در این چارچوب دو مدل هم‌زمان آموزش داده می‌شود. یک مدل مولد[2] G که توزیع داده‌ها را به دست می‌آورد و یک مدل متمایزکننده[3] D که احتمال اینکه نمونه از داده‌های آموزشی آمده باشد یا از مدل G را تخمین می‌زند. پروسۀ آموزش G این است که احتمال اینکه D اشتباه کند را بیشینه کند. درحقیقت این چارچوب مانند یک بازی دونفره بازی کمینه - بیشینه[4] است. نمای کلی شبکه‌های تخاصمی مولد در شکل (1) نشان داده شده است. در صورتی‌ که G و D به‌صورت یک شبکۀ پرسپترون چندلایه تعریف شده باشند، کل سیستم می‌تواند به‌صورت پس‌انتشار[5] خطا آموزش داده شود. در این روش، مدل مولد با استفاده از شبکۀ عصبی نویزهای تصادفی را به نمونه تبدیل می‌کند. همچنین، با استفاده از شبکه‌های عصبی یک مدل متمایزکننده، آموزش داده می‌شود. با استفاده از این روش هیچ نیازی به تخمین استنتاج[6] و زنجیره مارکوف نیست [5].

شکل (1): نحوۀ عملکرد شبکه‌های تخاصمی مولد

 

برای یادگیری توزیع مولد pg از داده x، یک احتمال پیشین[7] بر متغیر نویز تصادفی ورودی pz(z) تعریف می‌شود. پس ‌از آن، نگاشتی[8] به فضای داده[9] با عنوان G(z; θg) ارائه می‌شود که G یک تابع مشخص[10] است که به‌وسیله یک پرسپترون چندلایه با پارامترهای θg بیان می‌شود. همچنین، پرسپترون چندلایۀ دوم D(x; θd) تعریف می‌شود که یک خروجی اسکالر دارد. این خروجی احتمال اینکه x از داده‌ها آمده باشد در مقابل pg را تخمین می‌زند. شبکه D احتمال انتساب برچسب درست - که x از داده است - را در مقابل داده از pg را بیشینه می‌کند. هم‌زمان با آن، G برای کمینه‌کردن log(1-D(G(z))) آموزش داده می‌شود. درحقیقت، D و G بازی کمینه - بیشینۀ دونفره زیر را با تابع مقدار V(G, D) بازی می‌کنند [5].

(1)

 

 

با بازنویسی رابطۀ فوق در صورتی که تابع هدف D به‌صورت بیشینه‌یابی log-likelihood برای تخمین احتمال شرطی P(Y=y|x) ترجمه شود و در نظر گرفتن این موضوع که برای G بهترین D برابر است با  مشخص می‌شود درحقیقت شبکه‌های تخاصمی مولد فاصله جنسن‌شانون را کمینه می‌کند [5]. پس تابع هدف مولد همان کمینه‌کردن فاصلۀ جنسن‌شانون است. همچنین، می‌توان این تابع هدف را از هر فاصله، یا به عبارت صحیح‌تر، هر واگرایی f تعریف و کمینه کرد [7].

با اینکه شبکه‌های تخاصمی مولد نتایج شگفت‌انگیزی از خود بروز داده‌اند، در مقاله‌های مختلف به دو مشکل اساسی در شبکه‌های تخاصمی مولد اشاره شده است [8]–[11]. مشکل اولی این است که به دلیل اینکه حقیقت شبکه‌های تخاصمی مولد یک بازی مجموع صفر[11] است، هر مدل (مولد و متمایزکننده) باید تابع هدفی را بهینه کند که فقط بر پارامترهای خود کنترل دارد و نمی‌تواند پارامترهای رقیب را تغییر دهد. پس تلاش بیشتری برای آموزش و یافتن بهینه که عمدتاً هم‌محلی است، وجود خواهد داشت که به یک بهینۀ سراسری منجر نمی‌شود و آموزش را سخت می‌کند.

مشکل دیگر با عنوان «فروپاشی حالت»[12] یا «سناریو هلوتیکا» وجود دارد. این مشکل به حالتی اطلاق می‌شود که مدل مولد تابعی را یاد می‌گیرد که تعداد زیادی از ورودی‌های متفاوت (مقادیر z که از تابع توزیع ساده می‌آیند) را به یک نقطۀ مشابه خروجی نگاشت می‌کند. در عمل این به‌صورت جزئی اتفاق می‌افتد که تعداد زیادی ورودی متفاوت به تعداد خیلی کمی خروجی متفاوت نگاشت می‌شود.

در این بخش، مقدمه‌ای از شبکه‌های تخاصمی مولد و همچنین، مشکلات آن گفته شد. در ادامه، کارهای مرتبط برای رفع مشکل فروافتادگی حالت در سال‌های اخیر بررسی می‌شوند و در ادامه، اصول روش‌های مولد بر پایه استنباط تغییراتی بیان می‌شوند. سپس روش پیشنهادی با عنوان «شبکه تخاصمی مولد تغییراتی»[13] ارائه می‌شود. پس از آن، نتایج تجربی کیفی و کمیِ به‌دست‌آمده، بررسی و نتیجه‌گیری می‌شوند.

2- کارهای مرتبط

ایان گودفلو و همکارانش شبکه‌های تخاصمی مولد را در سال 2014 معرفی کردند [5]. با توجه به موفقیت‌های این روش در تولید داده‌ها تحقیقات وسیعی در این حوزه شکل گرفت. همان‌طور که اشاره شد این نوع از شبکه‌ها دارای دو ضعف مهم‌اند. بیشتر تحقیقات بر سختی آموزش این نوع شبکه برای کاربردهای واقعی معطوف بوده است [12]–[15] از میان کارهای انجام‌شده در حوزۀ مقابله با فروافتادگی حالت، به راهکار ارائه‌شده در مقاله اشاره می‌شود. در این کار به‌جای استفاده از یک شبکه برای مولد و یک شبکه برای متمایزکننده، به‌صورت محلی از چندین شبکه برای تولید داده‌ها و از چندین شبکه برای تمایز داده‌ها استفاده می‌کند. در راهکار دیگری [16] از شبکه‌های کانولوشنالی و ضد کانولوشنالی [13] برای مدل متمایزکننده و مدل مولد استفاده کرده است. همچنین، از خودرمزگذارها استفاده شده است تا بتوانند بر مشکل سختی آموزش غلبه کنند [14].

راه‌حل ارائه‌شده در [17] راهکاری با عنوان «ویژگی‌های دسته کوچک» است که در آن به متمایزکننده اجازه داده می‌شود یک نمونه را با یک دسته کوچک داده‌های تولید‌شده از مولد و یک دسته کوچک از داده‌های واقعی مقایسه شود. با اندازه‌گیری فاصله با دیگر نمونه‌ها می‌تواند بفهمد یک نمونه با دیگر نمونه‌های تولیدشده مشابه است یا خیر. این کار نتایج مناسبی داشته است. این روش تا حدی مشکل فروپاشی حالت را حل می‌کند؛ اما مشکلات دیگری نظیر مشکل شمارش، پرسپکتیو در تصویر و ساختارهای کلی را بهبود نمی‌دهد.

راه‌حل بعدی ارائه‌شده، استفاده از روشی به نام «شبکه‌های تخاصمی مولد بازشده» است [8]. این روش بر این مسئله اصرار دارد که باید ابتدا متمایزکنندۀ بهینه پیدا شود و بر اساس آن، مولد آموزش ببیند. برای این کار به‌ازای هر دسته کوچک داده، چندین بار مدل متمایزکننده آموزش داده می‌شود؛ در حالی که فقط یکبار مدل مولد آموزش داده می‌شود. این کار نسبت به روش «ویژگی‌های دسته کوچک» مشکل «فروپاشی حالت» را نمی‌تواند برطرف کند؛ اما مشکلات دیگر را نیز تا حدی بهبود می‌دهد. مشکل این روش این است که به دلیل افزایش بسیار زیاد پیچیدگی، برای داده‌های واقعی بزرگ (مانند مجموعه داده CFAR 10) مقیاس‌پذیر نمی‌شود.

راه حل دیگر برای مقابله با مشکل فروباشی حالت، اضافه‌کردن ترم پنالتی به تابع هدف شبکه‌های تخاصمی مولد (رابطه (1)) به شکلی است که فاصله بین نمونه‌های تولیدشده از مدل مولد افزایش یابد. ترم‌های متعددی برای این کار ارائه شده‌اند [18]–[20] که برخی از آنها به‌صورت ضمنی و برخی به‌صورت صریح‌، ترم رگلاتوری را به تابع هدف اضافه می‌کنند. یکی از معایب این روش‌ها سخت‌ترشدن آموزش کل شبکه است. همان‌طور که گفته شد شبکه‌های تخاصمی مولد از سختی آموزش و عدم همگرایی رنج می‌برند که با اضافه‌کردن ترم‌های پنالتی نامناسب مسئله را بغرنج‌تر می‌کنند.

استفاده از چندین شبکه‌مولد به صورتی که هر کدام بتوانند چندین مد را پوشش دهند نیز یکی از راه‌حل‌های مقابله با فروافتادگی حالت بیان شده است [21]–[25] در این راه‌حل‌ها با استفاده از چندین شبکه‌ مولد یا چندین شبکه متمایزکننده قصد دارند مجموعه‌ای از شبکه‌ها را آموزش دهند که هر کدام از شبکه‌ها مختص یک یا چند حالت باشند و مجموعۀ این شبکه‌ها بتوانند تمام حالت‌های مسئله را پوشش دهند. یکی از معایب عمده این کار، هزینه زیاد آموزش مدل است.

نقش اساسی وزن‌دهی اولیه برای مقابله با فروافتادگی حالت در شبکه‌های مولد تخاصمی در مقاله‌های [26], [27] تأکید شده است. این نشان‌دهندۀ این است که می‌توان با وزن‌دهی اولیه مناسب، مسئلۀ فروافتادگی حالت را تا حد زیادی کنترل کرد.

نتیجۀ به‌دست‌آمده از این پژوهش می‌تواند در بهبود عملکرد مدل‌های مولد تأثیر بسزایی داشته باشد که بر اساس آن، می‌توان نمونه داده‌های بسیار مشابه به واقعیت را تولید کرد. این نمونه‌ها می‌توانند مانند این پژوهش، تصویر واقعی یا متن [28]، نقاشی [12]، ویدئو [29] یا هر اثر هنری [30] باشد.

3- استنباط تغییراتی

استنباط تغییراتی یکی از روش‌های استنباط در مدل‌های گرافیکی[14] است.

 

 

شکل (2): مدل گرافیکی استنباط تغییراتی

 

در صورتی که در مدل گرافیکی شکل فوق X مشاهده‌ها[15] و Z متغیر پنهان[16] باشد، هدف، محاسبۀ احتمال پسین P(Z|X) است که با استفاده از قضیه بیز به‌صورت زیر محاسبه می‌شود.

(2)

 

 

در رابطه فوق، p(x) یک توزیع حاشیه‌ای[17] است که از رابطه  محاسبه می‌شود. این انتگرال در بسیاری از موارد رام‌نشدنی[18] است و نمی‌توان آن را محاسبه کرد و هنگامی که z از ابعاد بالا باشد، به دلیل اینکه انتگرال چندگانه خواهد شد، مهارناپذیر است. در حوزۀ آمار و احتمال دو روش برخورد با این مشکل وجود دارد؛ یکی استفاده از روش مونت‌کارلو است که با نمونه‌گیری، انتگرال را حل می‌کند و روش دیگر، استنباط تغییراتی است. در روش استنباط تغییراتی، p(z|x) را با توزیع دیگری نظیر q(z) تقریب می‌زنند. اگر q(z) یک توزیع رام‌شدنی باشد، می‌توان با تغییر پارامترهای آن به شکلی مشابه p(z|x) این تقریب را انجام داد. برای اینکه q(z) یک توزیع رام‌شدنی باشد، می‌توان آن را از خانوادۀ توزیع‌های مشهور مانند گاوسی و نمایی انتخاب کرد. پس نیاز است فاصله بین q(z) و p(z|x) کمینه شود. برای این کار می‌توان از معیارهای واگرایی و فاصله استفاده کرد. یکی از واگرایی‌های معروف، واگرایی کولبک - لیبلر[19] است که جنسن‌شانون نیز از آن بهره می‌گیرد و به‌صورت زیر تعریف می‌شود [31]:

(3)

 

 

در رابطه فوق، p و q دو توزیع متفاوت‌اند که واگرایی بین آنها سنجیده می‌شود. به‌ این ‌ترتیب، برای اینکه دو توزیع به هم نزدیک شود، باید رابطه زیر کمینه شود:

(4)

 

 

در صورت جایگذاری رابطه (2) به‌جای p(z|x) و ساده‌سازی به‌صورت زیر است:

(5)

 

 

با توجه به رابطه (4) و بازنویسی آن رابطه زیر پدید می‌آید:

(6)

 

 

با توجه به معلوم‌بودن x، log p(x) مقداری ثابت خواهد شد. در استنباط تغییراتی به‌جای کمینه‌کردن واگرایی کولبک – لیبلر ترم  را بیشینه می‌کنند که با عنوان «باندپایین‌حاشیه‌ای» شناخته می‌شود. برای بیشینه‌کردن این ترم به‌صورت زیر عمل می‌شود:

(7)

 

 

نتیجه این خواهد بود که باند پایین‌ حاشیه‌ای شامل دو ترم می‌شود که یکی از آنها واگرایی کولبک - لیبلر بین p(z) و q(z) است و دیگری امید ریاضی log p(x|z) با توجه به q(z) است. به‌ این‌ ترتیب، رابطه (7) به‌صورت زیر نوشته می‌شود:

(8)

 

 

این رابطه نشان می‌دهد به‌جای کاهش فاصله بین توزیع q(z) و p(z|x) (رابطه (4))، از رابطه (8) استفاده می‌شود و فاصله q(z) با p(z) یعنی KL_dist که مستقل از مشاهده x است، کاهش و لگاریتم‌ راست‌نمایی[20] یعنی log_like افزایش می‌یابد. روش‌های استنباط تغییراتی با استفاده از بیشینه‌کردن راست‌نمایی سعی در افزایش شباهت بین دو توزیع دارند. یکی از رویکردهای متداول برای این منظور، استفاده از شبکه‌های خودرمزگذار تغییراتی[21] است که در ادامه بررسی می‌شوند.

4- روش پیشنهادی

در این مقاله یک روش مبتنی بر شبکۀ خودرمزگذار تغییراتی، برای بهبود چالش فروافتادگی حالت و افزایش کیفیت داده‌های تولیدی در شبکه‌های تخاصمی پیشنهاد شده است. در قسمت قبل نشان داده شد با کم‌کردن فاصله (واگرایی) بین یک توزیع رام‌شدنی دلخواه q(z) و توزیع p(z|x) در حین افزایش لگاریتم ‌راست‌نمایی، می‌توان p(x|z) را تقریب زد. با استفاده از رمزگذارها این بهینه‌سازی انجام می‌شود. خودرمزگذار تغییراتی مدنظر در شکل (3) نشان داده شده است.

 

 

شکل (3) :خودرمزگذار تغییراتی

تابع هزینه این خودرمزگذار از رابطه (8) برداشت می‌شود که شامل دو ترم و  است. ترم  بیان می‌کند توزیع z که خروجی کدگذار است، مشابه هر توزیع دلخواه و رام‌شدنی مانند گاوسی است. ترم  به‌صورت مفهومی همان خطای بازسازی[22] است. پس تابع هزینۀ خودرمزگذار تغییراتی به‌صورت زیر دانسته می‌شود [32].

(9)

 

 

 

در رابطه فوق، به عبارتی به‌جای بیشینه‌کردن رابطه (8) از کمینه‌کردن خطای بازسازی و واگرایی کولبک - لیبلر استفاده می‌شود. باید توجه داشت کاهش خطای بازسازی معادل افزایش تابع راست‌نمایی در نظر گرفته می‌شود [33].

روش پیشنهادی، با بهره‌گیری از شبکۀ خودرمزگذار تغییراتی و تغییر در ساختار تابع هدف و فرآیند یادگیری شبکۀ تخاصمی مولد، مدلی ارائه می‌کند که از قابلیت هر دو شبکۀ مولد تخاصمی و خودرمزگذارهای تغییراتی در فرآیند ساخت مدل مولد استفاده می‌کند. در رابطه (5) دو ترم واگرایی کولبک - لیبلر و باندپایین حاشیه‌ای وجود دارد. در روش‌های استنباط تغییراتی ازجمله خودرمزگذار تغییراتی فقط باند پایین‌حاشیه‌ای را بیشینه می‌کنند و در شبکه‌های تخاصمی واگرایی (درحقیقت فاصله جنسن‌شانون) را کمینه می‌کنند؛ اما راه‌حل بینابینی - که این مقاله به آن پرداخته است - نیز وجود دارد که هر دو را به‌صورت نوبه‌ای بهینه می‌کند.

در مقاله [7] نشان داده شده است از هر واگرایی f می‌توان به‌جای فاصله شانون در شبکه‌های تخاصمی مولد استفاده کرد. در خودرمزگذارهای‌ تغییراتی نیز از انواع دیگر واگرایی به‌عنوان ترم تنظیم[23] استفاده می‌شود. پس می‌توان پس از اینکه باند پایین ‌حاشیه‌ای را با استفاده از خودرمزگذار تغییراتی بیشینه کرد، با استفاده از شبکه‌های تخاصمی مولد، ترم واگرایی بین دو توزیع را کاهش داد. با این کار برعکس خودرمزگذارهای تخاصمی [34] که قصد دارند با استفاده از مکانیسم تخاصمی خودرمزگذارهای ‌تغییراتی را بهبود دهند، سعی در بهبود شبکه‌های تخاصمی با استفاده از خودرمزگذارهای‌ تغییراتی دارد. دیاگرام عملکرد سیستم پیشنهادی به‌صورت شماتیک در شکل (4) نشان داده شده است.

 

 

شکل (4): شبکۀ تخاصمی مولد تغییراتی

 

شبکۀ تخاصمی تغییراتی، دو مرحله برای آموزش دارد؛ در مرحلۀ نخست، شبکه با عنوان یک خودرمزگذار تغییراتی آموزش داده می‌شود تا توزیع z تعیین شود و پس از آن در مرحلۀ دوم با تبدیل کدگشا به شبکه مولد G و تبدیل کدگذار به شبکۀ متمایزکننده D و اضافه‌کردن یک تبدیل‌کننده C که وظیفۀ کلاسه‌بندی را دارد، یک شبکه ‌مولد تخاصمی تشکیل می‌شود که وظیفۀ کمینه‌کردن فاصله بین توزیع داده‌ها و نمونه‌های تولیدشده را دارد.

به بیان دیگر، روش پیشنهادی یک پیش‌آموزش برای شبکه‌های مولد تخاصمی است که در این پیش‌آموزش از خودرمزگذارهای‌ تغییراتی استفاده می‌شود. در ادامه، نتایج تجربی به‌دست‌آمده از این روش بیان می‌شوند [35].

 

  • نتایج تجربی

یکی از چالش‌های اساسی در مدل‌های مولد به‌خصوص شبکه‌های تخاصمی، مولدیافتن معیاری برای ارزیابی مدل ارائه‌شده است. در این بین راه‌حل‌هایی ارائه شده‌اند؛ اما در تمامی موارد، محققان اذعان دارند نتایج با این معیارها به‌صورت صحیح ارزیابی نمی‌شوند. همچنین، در این مقاله هدف، کاستن مشکل فروپاشی حالت بوده است؛ بنابراین، می‌توان از راه‌حل‌های به‌کاررفته در مقاله‌های[7], [17], [35]–[37] برای ارزیابی مدل استفاده کرد؛ اما در این مقاله از ارزیابی کیفی نیز استفاده شده است؛ بنابراین، در دو بخش آینده، روش پیشنهادی به‌صورت مجزا ارزیابی کمی و کیفی می‌شوند. بخشی از پیاده‌سازی روش پیشنهادی دردسترس است[24]. مجموعه داده‌های بررسی‌شده، مجموعه داده مشهور MNIST [38] و CIFAR [39] است. نمونه‌هایی از تصاویر تولیدشده برای دو مجموعه داده در شکل (8) نشان داده شده‌اند. در این شکل چند نمونه به‌صورت خاص با دایره قرمز مشخص شده‌اند. این تصاویر برتری کیفیت روش شبکۀ تخاصمی مولد تغییراتی را نسبت به روش DC-GAN به‌صورت بصری نشان می‌دهد.

 

  • ارزیابی کمی

معیارهای محدودی برای ارزیابی مدل‌های مولد ارائه شده‌اند که یکی از پراستفاده‌ترین آنها استفاده از معیار لگاریتم ‌راست‌نمایی بر توزیع داده‌های تولیدشده در کنار توزیع داده‌های آزمایشی استخراج‌شده از پنجره پارزن است. این روش در مقاله [40] ارائه شده و برای ارزیابی روش‌های مولد در بیشتر کارهای انجام‌شده در حوزۀ شبکه‌های تخاصمی مولد از آن استفاده شده است. در جدول زیر مقادیر به‌دست‌آمده از روش پیشنهادی این مقاله (VGAN) و روش‌های پیشین ارائه شده‌‌اند.

جدول (1): میانگین و انحراف استاندارد لگاریتم‌ راست‌نمایی پنجره پارزن در دو مجموعه داده با روش‌های مختلف

Method

MNIST

CIFAR

DBN[41]

138±2

569±4.1

DC-GAN[42]

131±1.2

555±3.9

Conditional-GANs[35]

132±1.8

598±3.8

Improved Wasserstein GAN[36]

148±1.3

608±3.0

VGAN

163±1.3

611±3.6

 

با توجه به جدول، در هر دو مجموعه‌داده، روش ارائه‌شده در این مقاله نسبت به سایر روش‌ها نتیجه بهتری کسب کرده است.

در وضعیت فروافتادگی حالت، پراکندگی تخمین کلاس به سمت یک فضای خاص سوق می‌یابد. در صورتی‌ که بتوان از این فروافتادگی حالت جلوگیری کرد، پراکندگی مناسب در فضای توزیع داده‌های تولیدشده برقرار خواهد شد. برای سنجش این خصوصیت از شاخص پراکندگی ‌تخمین‌ کلاس داده‌ها استفاده‌ شده است. در این شاخص، پراکندگی کل داده‌ها بر حسب مجموعه داده مدنظر، محاسبه  و به‌صورت زیر معرفی می‌شود:

(10)

 

 

در رابطه فوق،  تعداد نمونه‌های کلاس i م در مجموعه داده آزمایشی و  تعداد نمونه‌های کلاسه‌بندی‌شده در کلاس i با استفاده از کلاسه‌بند مناسب هر مجموعه داده است. هرچه این معیار کمتر باشد، بهتر است و پراکندگی بهتری در فضای داده‌های تولیدشده وجود دارد. جدول 2 نتیجۀ مقایسۀ روش‌ها را با این معیار نشان می‌دهد.

 

جدول (2): معیار اختلاف پراکندگی در کلاس برای روش‌های VGAN و DC-GAN.

Method

MNIST

CIFAR

VGAN

224.8±5.4

327.1±3.5

DC-GAN

296±9.1

358.8±4.9

 

نتایج نشان دهندۀ این است که توزیع داده‌های تولیدشده در روش پیشنهادی (VGAN) اختلاف کمتری با داده‌های واقعی داشته است. برای بررسی دقیق‌تر این مسئله، در نمودار زیر توزیع تعداد نمونه‌های کلاسه‌بندی‌شده در هر کلاس برای مجموعه داده MNIST نشان داده شده است.

 

 

شکل (6): تعداد نمونه‌های تولیدشده در هر کلاس برای مجموعه داده MNIST

در روش DC-GAN (میله‌های آبی) واضح است بخش زیادی از داده‌ها در کلاس 3 و سپس 7 تجمیع شده‌اند که با توزیع واقعی (میله‌های قرمز) تفاوت محسوسی دارند؛ اما در روش پیشنهادی VGAN داده‌ها به‌صورت مناسب‌تری در بین کلاس‌ها پخش شده‌اند.

 

  • ارزیابی کیفی

برای ارزیابی بهتر روش پیشنهادی، در این بخش از معیارهای کیفی استفاده شده که از روی نظرات تعداد زیادی از کاربران انسانی به دست آمده است. برای نظرسنجی از کاربران، در یک سامانه تحت وب 10000 تصویر واقعی از مجموعه داده MNIST به همراه 10000 تصویر تولیدشده از روش DC-GAN و همچنین، 10000 تصویر تولیدشده از روش پیشنهادی (VGAN) وجود دارد. این تصاویر به‌صورت تصادفی به کاربران نشان داده شده و از کاربران خواسته‌ شده است مشخص کنند کدام تصویر واقعی و کدام تصویر تولیدشده از ماشین است[25]. درخور ذکر است در نظرسنجی به کاربران هیچ پیش‌فرضی داده نشده و از نظرسنجی احتمالی توسط بات‌ها با به‌کارگیری کپچای گوگل جلوگیری شده است. شکل (7) عکسی از صفحۀ نظرسنجی را نشان می‌دهد.

 

 

شکل (7): تصویر صفحۀ نظرسنجی

 

در زمان نگارش این مقاله تعداد 136 نفر در این نظرسنجی شرکت کردند. کل تصاویر یکتا برابر 30000 مورد بوده که به‌صورت میانگین هر کاربر دربارۀ 220 تصویر اظهارنظر کرده است. درمجموع، تعداد کل تصاویر نشان داده شده 108959 مورد بوده است. باید توجه داشت برخی از تصاویر بیش از چند مرتبه نشان داده شده است. برای نتایج آنلاین[26] نظرسنجی[27] تا انتهای سال 2021 میلادی دردسترس خواهد بود. نتایج آماری به‌دست‌آمده در جدول زیر نشان داده شده‌‌اند.

 

 

جدول (3): مقایسۀ روش VGAN با روش DC-GAN به‌صورت کیفی.

 

برآمده از

مجموع

واقعی

VGAN

DC-GAN

نظر کاربر

واقعی

25224 (69.44%)

19112 (52.83%)

14946 (41.04%)

59282 (54.43%)

ساختگی

11101 (30.56%)

17065 (47.17%)

21472 (58.96%)

49638 (45.57%)

مجموع

36325 (33.35%)

36177 (33.21%)

36418 (33.44%)

108920

 

 

سطر آخر (مجموع) جدول فوق نشان می‌دهد توزیع نمایش تصاویر (واقعی، ساختگی VGAN و ساختگی DC-GAN) یکنواخت بوده است. ستون آخر نشان می‌دهد با وجود اینکه تنها 33 درصد داده‌ها واقعی بوده‌اند، کاربران درمجموع بیش از 54% داده‌ها را واقعی تشخیص داده‌اند. در روش DC-GAN میزان 41% کل تصاویر ساختگی، واقعی تشخیص داده‌ شده است؛ در حالی ‌که در روش پیشنهادی VGAN، بیش از نیمی از کاربران (52%) تصاویر ساختگی این شبکه را واقعی تشخیص داده‌اند. جزئیات آمارهای این نظرسنجی نیز به‌صورت برخط دردسترس‌اند‌[xxviii].

 

  • نتیجه‌گیری

در این مقاله، روشی برای مقابله با فروپاشی حالت ارائه شد. روش پیشنهادی دارای دو مرحله است؛ در مرحلۀ نخست، یک خودرمزگذار تغییراتی آموزش داده می‌شود تا بتواند یک نگاشت از داده‌های آموزشی به نویز تصادفی از توزیع دلخواه قابل رام‌شدنی از رمزگذار باشد. همچنین، قابلیت نگاشت نویز تصادفی از توزیع انتخاب‌شده به توزیع داده‌های واقعی را داشته باشد. در مرحلۀ دوم از همین رمزگذار و رمزگشا به فرم یک شبکه ‌مولد تخاصمی استفاده می‌شود. به بیان دیگر، خودرمزگذارهای تغییراتی برای وزن‌دهی اولیۀ شبکه‌های تخاصمی مولد استفاده شده‌اند. توجیه این کار با رابطۀ استنباط تغییراتی بیان شده است. با نتایج تجربی نشان داده شد با بیشینه‌کردن باند پایین حاشیه‌ای با استفاده از خودرمزگذار و کمینه‌کردن واگرایی بین دو توزیع مولد و واقعی به‌صورت ترتیبی، جواب‌های بهتری به دست می‌آیند. این نتایج به دو صورت کیفی و کمی تحلیل شده‌اند. در روش تحلیل کیفی، کاربران، سامانۀ اینترنتی را برای مشخص‌کردن تصاویر واقعی نسبت به تصاویر مصنوعی تهیه کردند و کاربران عادی و دانشجو نظرات خود را با حداقل پیش‌فرض، تصاویر واقعی را از مصنوعی را تمیز دادند. در تحلیل کمی از معیار میانگین لگاریتم ‌راست‌نمایی پنجره پارزن و معیار اختلاف پراکندگی در کلاس استفاده شد.

با توجه به تحلیل کیفی انجام‌شده، روش ارائه‌شده در این مقاله توانسته است عملکرد بهتری در رابطه با کیفیت تصاویر تولیدشده ارائه دهد. همچنین، نتایج تجربی نشان دادند روش پیشنهادی تا حدودی توانسته است بر مسئلۀ فروافتادگی حالت غلبه کند.

 

  • کارهای آینده

روش پیشنهادشده در این مقاله برای تولید تصاویر استفاده شده است. این در حالی است که روش پیشنهادی قابلیت استفاده در تولید انواع داده را دارد؛ خواه این داده، تصویر، ویدئو، متن یا حتی هنر و شعر باشد.

همچنین، می‌توان راهکارهای دیگری برای مقابله با فروافتادگی حالت مانند اضافه‌کردن ترم پنالتی به تابع هدف شبکۀ تخاصمی مولد یا آموزش چندین شبکه‌ مولد با روش پیشنهادشده در این مقاله ترکیب کرد؛ حتی می‌توان روش پیشنهادی را روی توسعه‌های ارائه‌شده بر شبکۀ تخاصمی مولد مانند WGAN [31], [36] اعمال کرد و داده‌های باکیفیت‌تری تولید کرد.

 

[1] تاریخ ارسال مقاله: 07/05/1400

تاریخ پذیرش مقاله: 13/06/1400

نام نویسندۀ مسئول: ولی درهمی

نشانی نویسندۀ مسئول: ایران – یزد –دانشگاه یزد – دانشکده مهندسی کامپیوتر

 

[1] Generative Adversarial Nets

[2] Generative Model مدلی که آموزش می‌بیند تا داده تولید کند

[3] Discriminative مدلی که آموزش می‌بیند تا داده‌ها را در کلاس‌های متفاوت تفکیک کند

[4] minimax

[5] Backpropagation

[6] Approximate inference

[7] Prior probability

[8] Mapping

[9] Data space

[10] Differentiable function

[11] Zero sum game

[12] Mode Collapse

[13] Varitinal Generative Adversarial Network (VGAN)

[14] Graphical Model

[15] Observation

[16] Hidden Variable

[17] Marginal Distribution

[18] intractable

[19] Kullback–Leibler

[20] Likelihood

[21] Variational Autoencoder

[22] Reconstruction Error

[23] Regularization

[24] https://colab.research.google.com/drive/1aNnewedDeqmGmZjEqVLK612WV-1eLZhj

[25] کاربران شرکت کننده در نظرسنجی دانشجویان رشته کامپیوتر دانشکده شهید باهنر شیراز، دانشگاه یزد و تعداد محدودی از افراد عادی بوده‌اند.

[26] http://pws.yazd.ac.ir/lcir/GAN_project1/stat.php

[27] http://pws.yazd.ac.ir/lcir/GAN_project1

[xxviii] http://pws.yazd.ac.ir/lcir/GAN_project1/scoreboard.php

[1] M. Hajizadeh Tahan, M. Ghasemzadeh, and M. Rezaeian, “An evolutionary attention-based deep long short-term memory for time series prediction,” Comput. Intell. Electr. Eng., Vol. 11, No. 4, 2021.
[2] S. Sheykhivand, S. Meshgini, and Z. Mousavi, “Automatic Detection of Various Epileptic Seizures from EEG Signal Using Deep Learning Networks,” Comput. Intell. Electr. Eng., Vol. 11, No. 3, 2020.
[3] L. Deng and D. Yu, “Deep Learning: Methods and Applications,” Found. Trends® Signal Process., Vol. 7, No. 3–4, pp. 197--387, 2013, doi: 10.1136/bmj.319.7209.0a.
[4] Y. Bengio, “Learning Deep Architectures for AI,” Found. Trends® Mach. Learn., Vol. 2, No. 1, pp. 1–127, 2009, doi: 10.1561/2200000006.
[5] I. J. Goodfellow et al., “Generative Adversarial Nets,” in Advances in Neural Information Processing Systems (NIPS), 2014, pp. 1–9, doi: 10.1017/CBO9781139058452.
[6] Z. Wang, Q. She, and T. E. Ward, “Generative adversarial networks in computer vision: A survey and taxonomy,” ACM Comput. Surv., Vol. 54, No. 2, pp. 1–38, 2021.
[7]  S. Nowozin, B. Cseke, and R. Tomioka, “f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization,” Vol. 2, No. 1, pp. 1–9, 2016, [Online]. Available: http://arxiv.org/abs/1606.00709.
[8] L. Metz, B. Poole, D. Pfau, and J. Sohl-Dickstein, “Unrolled Generative Adversarial Networks,” in 5th International Conference on Learning Representations, 2017, pp. 1–25, [Online]. Available: http://arxiv.org/abs/1611.02163.
[9] T. Chavdarova and F. Fleuret, “SGAN: An Alternative Training of Generative Adversarial Networks,” arXiv Prepr. arXiv1712.02330, 2017, [Online]. Available: http://arxiv.org/abs/1712.02330.
[10] S. Reed, A. van den Oord, N. Kalchbrenner, V. Bapst, M. Botvinick, and N. de Freitas, “Generating interpretable images with controllable structure,” in 5th International Conference on Learning Representations, 2017, pp. 168–175.
[11 S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and H. Lee, “Generative Adversarial Text to Image Synthesis,” in Proceedings of The 33rd International Conference on Machine Learning (ICML), 2016, Vol. 48, pp. 1060–1069, [Online]. Available: http://proceedings.mlr.press/v48/reed16.html.
[12] Y. Liu, Z. Qin, T. Wan, and Z. Luo, “Auto-painter: Cartoon image generation from sketch by using conditional Wasserstein generative adversarial networks,” Neurocomputing, vol. 311, pp. 78–87, 2018, doi: 10.1016/j.neucom.2018.05.045.
[13] J. Luo and J. Huang, “Generative adversarial network: An overview,” Yi Qi Yi Biao Xue Bao/Chinese Journal of Scientific Instrument, vol. 40, no. 3. pp. 74–84, 2019, doi: 10.19650/j.cnki.cjsi.J1804413.
[14] M. Lee and J. Seok, “Controllable generative adversarial network,” IEEE Access, vol. 7, pp. 28158–28169, 2019, doi: 10.1109/ACCESS.2019.2899108.
[15] Y. Deldjoo, T. Di Noia, and F. A. Merra, “A survey on adversarial recommender systems: from attack/defense strategies to generative adversarial networks,” ACM Comput. Surv., Vol. 54, No. 2, pp. 1–38, 2021.
[16] C. Tao, L. Chen, R. Henao, J. Feng, and L. Carin, “X2 generative adversarial network,” in 35th International Conference on Machine Learning, ICML 2018, 2018, Vol. 11, pp. 7787–7796, doi: 10.1007/978-1-4842-3679-6_8.
[17] T. Salimans, I. Goodfellow, W. Zaremba, V. Cheung, A. Radford, and X. Chen, “Improved Techniques for Training GANs,” in Conference on Neural Information Processing Systems (NIPS ), 2016, pp. 1–9, doi: arXiv:1504.01391.
[18] Q. Mao, H.-Y. Lee, H.-Y. Tseng, S. Ma, and M.-H. Yang, “Mode seeking generative adversarial networks for diverse image synthesis,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 1429–1437.
[19] Y. Yao, Y. Pan, I. W. Tsang, and X. Yao, “Support Matching: A Novel Regularization to Escape from Mode Collapse in GANs,” in International Conference on Neural Information Processing, 2019, pp. 40–48.
[20] H. Eghbal-zadeh, W. Zellinger, and G. Widmer, “Mixture density generative adversarial networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 5820–5829.
[21] A. Ash-Saki and S. Ghosh, “How Multi-Threshold Designs Can Protect Analog IPs,” 2019, doi: 10.1109/ICCD.2018.00075.
[22] I. Tolstikhin, S. Gelly, O. Bousquet, C. J. Simon-Gabriel, and B. Schölkopf, “AdaGAN: Boosting generative models,” in Advances in Neural Information Processing Systems, 2017, vol. 2017-Decem, pp. 5425–5434.
[23] A. Grover and S. Ermon, “Boosted generative models,” in 32nd AAAI Conference on Artificial Intelligence, AAAI 2018, 2018, pp. 3077–3084.
[24] T. Chavdarova and F. Fleuret, “SGAN: An Alternative Training of Generative Adversarial Networks,” in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2018, pp. 9407–9415, doi: 10.1109/CVPR.2018.00980.
[25] D. Saxena and J. Cao, “Generative Adversarial Networks (GANs) Challenges, Solutions, and Future Directions,” ACM Comput. Surv., Vol. 54, No. 3, pp. 1–42, 2021.
[26] N. Yu, L. S. Davis, and M. Fritz, “Attributing fake images to gans: Learning and analyzing gan fingerprints,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 7556–7566.
[27] S. Bell-Kligler, A. Shocher, and M. Irani, “Blind super-resolution kernel estimation using an internal-gan,” in Advances in Neural Information Processing Systems, 2019, pp. 284–293.
[28] H. Zhang et al., “StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 41, no. 8, pp. 1947–1962, 2019, doi: 10.1109/TPAMI.2018.2856256.
[29] D. Guera and E. J. Delp, “Deepfake Video Detection Using Recurrent Neural Networks,” 2019, doi: 10.1109/AVSS.2018.8639163.
[30] N. Murray, “PFAGAN: An Aesthetics-Conditional GAN for Generating Photographic Fine Art,” in Proceedings of the IEEE International Conference on Computer Vision Workshops, 2019, p. 0.
[31] M. Arjovsky, S. Chintala, and L. Bottou, “Wasserstein gan,” arXiv Prepr. arXiv1701.07875, 2017, doi: 10.2507/daaam.scibook.2010.27.
[32] Y. Burda, R. Grosse, and R. Salakhutdinov, “Importance Weighted Autoencoders,” pp. 1–14, 2015, [Online]. Available: http://arxiv.org/abs/1509.00519.
[33] D. P. Kingma and M. Welling, “Auto-encoding variational bayes,” 2014.
[34] A. Makhzani, J. Shlens, N. Jaitly, I. Goodfellow, and B. Frey, “Adversarial Autoencoders,” arXiv Prepr. arXiv1511.05644., 2015, [Online]. Available: http://arxiv.org/abs/1511.05644.
[35] M. Mirza and S. Osindero, “Conditional generative adversarial nets,” arXiv Prepr. arXiv1411.1784, pp. 1–7, 2014, doi: 10.1017/CBO9781139058452.
[36] I. Gulrajani, F. Ahmed, M. Arjovsky, V. Dumoulin, and A. C. Courville, “Improved training of wasserstein gans,” in Advances in neural information processing systems, 2017, pp. 5767–5777, doi: 10.1097/WAD.0b013e318211c83c.
[37] A. Odena, C. Olah, and J. Shlens, “Conditional image synthesis with auxiliary classifier gans,” in Proceedings of the 34th International Conference on Machine Learning-Volume 70, 2017, pp. 2642–2651, doi: 10.1016/0021-9614(70)90038-8.
[38] Y. LeCun, C. Cortes, and C. J. C. Burges, “MNIST handwritten digit database,” AT&T Labs [Online]. Available http//yann. lecun. com/exdb/mnist, vol. 2, 2010.
[39] A. Krizhevsky, V. Nair, and G. Hinton, “The CIFAR-10 dataset,” online: http://www. cs. toronto. edu/kriz/cifar. html, 2014. .
[40] O. Breuleux, Y. Bengio, and P. Vincent, “Quickly generating representative samples from an RBM-derived process,” Neural Computation, vol. 23, no. 8. pp. 2058–2073, 2011, doi: 10.1162/NECO_a_00158.
[41] Y. Bengio, G. Mesnil, Y. Dauphin, and S. Rifai, “Better mixing via deep representations,” in 30th International Conference on Machine Learning, ICML 2013, 2013, No. PART 1, pp. 552–560.
[42] A. Radford, L. Metz, and S. Chintala, “Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks,” arXiv Prepr. arXiv1511.06434, 2016, doi: 10.1051/0004-6361/201527329.