Document Type : Research Article
Authors
1 Department of Biomedical Engineering Faculty of Engineering, Amir Kabir University of Technology, Tehran, Iran
2 Department of electrical engineering, Faculty of Engineering, Islamic Azad University Central Tehran Branch, Tehran, Iran
Abstract
Keywords
مدلهای زیادی برای شبکههای عصبی مصنوعی ارائه شدهاند که در هریک از آنها گوشهای از ویژگیهای مغز مورد توجه قرار گرفته است. ترکیب این مدلها و ایجاد شبکههای عصبی مصنوعی که عملکرد آنها همخوانی بیشتری با عملکرد مغز دارد، میتواند باعث بهبود توان پردازشی شبکههای عصبی مصنوعی موجود شود. پیشرفتهای جدید در دینامیکهای غیر خطی، شناخت نظریه آشوب و سیستمهای پیچیده از یک سو و پیشرفت در تجهیزات آزمایشگاهی از سوی دیگر، باعث شده است که بشر به وجود خاصیتهای جدید، به ویژه خاصیت آشوب در عملکرد مغز پی ببرد. بنابراین، وارد کردن این خاصیت در مدلهای شبکه عصبی کلاسیک میتواند راهی برای بهبود عملکرد آنها باشد. که این مهم از اهداف این مقاله است.
مطالعات محققان در اوایل دهه 90 میلادی نشان داد که سیناپسها، بر خلاف آنچه که پیشتر فرض میشد، یکی از پویاترین اجزای دستگاه عصبی جانداران هستند[1،2]. حتی پس از مرحله تعلیم، قدرت سیناپس یک کمیت ثابت باقی نمیماند، بلکه به طور پیوسته در حال تغییر است که این تغییر از فعالیت تعدادی فرآیند شیمیایی در نواحی پیش سیناپسی و پس سیناپسی ناشی میشود [3]. از آن هنگام، چندین مدل شبکه عصبی بر مبنای نگرش فوق ارائه شده است که عموما از آنها با عنوان شبکههای عصبی مصنوعی با سیناپس پویا[1] یاد میشود. از این مدلها تا کنون در کاربردهای گوناگونی، از جمله استخراج ویژگیهای تغییر ناپذیر از سیگنال گفتار متأثر از تنوعات، طبقهبندی الگوهای فضایی- زمانی تصادفی، تقریب فیلترهای تربیعی و شناسایی گوینده استفاده گردیده است. با وجود این، هنوز بر سر روش فراگیر تعلیم این گونه شبکههای عصبی توافقی وجود ندارد [4، 5، 6، 7، 8 و 9]. برای تعلیم شبکههای عصبی مصنوعی با سیناپس پویا تعدادی روش بر مبنای تطبیق بلندمدت با الهام از طبیعت، پیشنهاد شده است [5، 10]، که با وجود سرعت نسبتا مناسب، تنها قادرند بخشی از پارامترهای سیناپس را تنظیم نمایند. از روش الگوریتم ژنتیک نیز برای تعلیم شبکه عصبی مبتنی بر سیناپس پویا استفاده شده است که اغلب بسیار کند و وقت گیر هستند [10]. روش تعلیم دیگری که پیشنهاد شده، بر مبنای بهینهسازی غیرخطی ناحیه اطمینان است [11]. رویکرد دیگر در تعلیم شبکههای عصبی مبتنی بر سیناپس پویا استفاده از روشهای تعلیم مبتنی بر گرادیان است. در مدل ارائه شده در [12] با انتخاب یک تابع خطای هموار از روشهای تعلیم مبتنی بر گرادیان برای تعلیم شبکه با وزن پویا استفاده شده است.
پیشرفتهای جدید در دینامیک غیر خطی و نظریه آشوب نشان داده است که امواج EEG تنها نشان دهنده فرایندهای تصادفی نیستند، بلکه دارای خاصیت آشوبگونه مشخص هستند [13، 14],. رفتار آشوبگونه در نورونها به شکل میکروسکوپیک نیز مشاهده شده است. برای مثال غشای آکسون اسکوئید[2] در پاسخ به تحریک سینوسی، متناسب با فرکانس و قدرت تحریک، پاسخ پریودیک یا آشوبگونه از خود نشان میدهد [15]. منشا فعالیت نورونها تغییر هدایت پروتئینهای خاص موجود در غشا سلولهاست که کانال نامیده میشوند. این کانالها به یونها اجازه حرکت از فضای داخل سلولی به فضای بیرون سلولی و بالعکس میدهند. در روشهای جدید ثبت، رفتار یک کانال به تنهایی مشاهده و مشخص شده است که باز و بسته شدن کانال حالت غیرمنظم دارد. گروهی از محققان معتقد به تصادفی بودن عملکرد آنها هستند و گروهی معتقدند که مدلهای مبتنی بر نظریه آشوب میتوانند این خاصیت کانالها را مدل نمایند [15].
پینتو و همکاران به مطالعه تک نورونی از غده دهانی (STG) خرچنگ خاردار کالیفرنیایی پرداختهاند [16]. در این مطالعه، مدلی برای فعالیت پتانسیل عمل تک نورون ارائه شده است که قادر به مدل کردن رفتار آشوبی نورون طبیعی است. دسته دیگری از محققان به دنبال ایجاد مدلهایی از شبکه عصبی آشوبگونه هستند که ضمن همخوانی با مدلهای شبکههای عصبی مصنوعی کلاسیک، توان ایجاد رفتار آشوبگونه را دارا باشند. دراین دسته از مدلها، تنها رفتار یک نورون یا دسته کوچکی از نورونهای مصنوعی بررسی شده است و به تحلیل روابط بین متغیرها و پارامترهای شبکه و تعیین محدودههایی که نورون رفتار آشوبگونه دارد، پرداختهاند. در این مدلها نیز از توان پردازشی مدل سخنی به میان نیامده است. در مرجع [17] دینامیک یک شبکه هاپفیلد سه نورونی بااستفاده از نمای لیاپانوف با روش عددی مطالعه شده است. رفتار این شبکه به ازای مقادیر مختلف پارامترهای آن بررسی و محدودهای که باعث رفتار آشوبی میشود، تعیین شده است. در مرجع [18] نیز مدلی از نورون بازگشتی ارائه شده است که قادر به ایجاد رفتار آشوبگونه است. دسته دیگری از مدلهای آشوبگونه وجود دارند که ضمن دارا بودن خاصیت آشوبگونه دارای توان پردازشی نیز هستند. در مرجع [19] شبکه عصبی آشوبگونهای ارائه شده است که قادر به ذخیره سازی و بازیابی تصاویر چند سطحی است. در مراجع [20، 21، 22]از المانهای بازگشتی (تابع لجستیک) برای ذخیره و بازیابی رشتههای دودوئی استفاده شده است.
در مرجع [1] شبکه عصبی آشوبگونهای ارائه شده است که قادر به ذخیره سازی و بازیابی تصاویر چند سطحی است. در این مرجع از یک شبکه بازگشتی به عنوان شبکه پایه استفاده شده است. در این شبکه آشوب گونه، در هر مرحله خروجی توسط تابع های لجستیک که در مد آشوب فعالیت می کنند، اصلاح شده و خروجی اصلاح شده توسط شبکه عصبی بازگشتی پایه ارزیابی میگردد و نحوه اصلاحات مراحل بعدی تعیین می شود. این مراحل آنقدر تکرار می شوند تا به پاسخ مطلوب برسند. شبکه آشوبی طراحی شده در این مرجع از توان پردازشی بالاتری نسبت به شبکه پایه خود برخوردار است. از آنجایی که شبکههای جلوسوی چند لایه از شبکه های عصبی قدیمی هستند و تحقیقات طولانی بر روی این شبکهها به ایجاد شبکههای جلوسوی چند لایه با توانایی پردازشی بالا منجر شده است، بنابراین، اعمال ویژگی آشوب به این شبکهها که بر گرفته از ویژگی شبکه های شبکههای عصبی طبیعی است، می تواند به تولد شبکههای جلوسوی آشوب گونه ای منجر شود که از قدرت پردازش بالایی برخوردارند. در این مقاله روشی برای آشوبی کردن شبکه جلوسوی چند لایه ارائه شده است.
شبکههای عصبی جلو سو، دسته وسیعی از شبکههای عصبی مصنوعی را تشکیل میدهند. این شبکهها از توان پردازشی خوبی برخوردارند و در کابردهای پردازشی فراوانی، به خصوص در باز شناسی الگو استفاده میشوند. با اینکه شبکههای عصبی جلو سو از قدمت نسبتا بالایی برخوردارند، ولی به علت توان پردازشی بالا همچنان مورد توجه محققان هستند. برای مثال، در مرجع [23] از این نوع شبکهها برای بازشناسی الگو استفاده شده است. با اینکه شواهد زیادی بر دینامیکی بودن وزنهای شبکه عصبی طبیعی ارائه شده، ولی این نوع شبکههای عصبی جلو سو همچنان به شکل ایستا عمل میکنند. در این مقاله روشی برای پویا سازی وزنهای شبکه عصبی جلو سوی کلاسیک که ایستا هستند، ارائه شده است.
بخش بعدی به بررسی ساختار و نحوه عملکرد شبکه عصبی جلو سوی ایستا، به خصوص هنگام تعلیم پرداخته شده است، سپس تابع لجستیک و توانایی آن در ایجاد آرایشهای مختلف سری زمانی آشوبگونه ارائه شده است. در ادامه، با استفاده از شبکه عصبی جلو سوی ایستا و توابع لجستیک با توانایی ایجاد سری زمانی آشوبگونه، شبکه عصبی آشوبگونه طراحی شده در این مقاله معرفی میگردد. توضیحات در مورد پایگاه داده استفاده شده و نتایج عددی در بخشهای بعدی ذکر میگردد و در قسمت آخر نیز جمع بندی و پیشنهادها ارائه خواهد شد.
فرضکنیدکهمجموعهدادههایتعلیمو برچسبهایخروجیمتناظرباآنهادردستباشند. دراینصورت،هدفازتعلیمشبکهپیداکردنوزنهایشبکهاست؛بهطوریکهبتوانند،دادههایورودیرابهبهترینوجهیبهخروجیمطلوب) برچسبهایمتناظر( نگاشتکنند.درروشپسانتشارخطا،برایتعلیمشبکهیکتابعمعیار مشخصفرضمیشودکهمعمولابهترینانتخاببرای اینتابعمجموعمربعاتاختلافمیانخروجی مطلوبوخروجیواقعیشبکهاست. وزنها در جهت کمینه کردن خطا اصلاح میشوند. و در نهایت، شبکهای با وزنهای ثابت به دست میآید. با اعمال هر ورودی آزمون به این شبکه، یک خروجی ثابت داریم.
ساده ترین شبکهای که میتواند دادهها را به دو دسته تقسیم کند، یک نورون باینری است که پرسپترون نامیده میشود. این ساختار در شکل 1 نشان داده شده است. این مدل توسط روزنبلت در سال 1958 معرفی شد. خروجی ساختار پرسپترون به جمع وزنی کامپوننتهای ورودی ( ) بستگی دارد. وزنها ( ) متعلق به اعداد حقیقی است. این جمع وزن دار پتانسیل نامیده میشود [24].
شکل (1): ساختار یک پرسپترون [24].
در این بخش چگونگی عملکرد یک طبقه بندی کننده پرسپترون توضیح داده میشود و در قسمتهای بعدی از این مفاهیم برای تحلیل عملکرد شبکه عصبی جلوسو آشوبگونه استفاده میشود.
ابر صفحه جداکننده: برای ورودی و وزن نقاطی که در معادله زیر صدق میکنند، تشکیل ابرصفحه میدهند.
|
این ابرصفحه میتواند فضای ورودی را به دو طبقه تقسیم کند. در فضای ورودی اگر باشد، آنگاه خروجی نورون (1+) شده، این ورودی متعلق به طبقه 1+ است و بالعکس، اگر باشد، این ورودی متعلق به طبقه 1- است. بنابراین، یک نورون میتواند برای طبقهبندی ورودیها به دو طبقه استفاده شود.
چگونگی جداسازی ورودیها با استفاده از نورون پرسپترون (جدا کنندههای خطی)
رابطه مربوط به ابرصفحه جداکننده را میتوان به صورت زیر در نظرگرفت:
(1) |
در رابطه (1) =1در نظر گرفته شده است. این معادله یک ابرصفحه در فضای بعدی ( ) است. فرض میکنیم که ورودی دو بعدی باشد ( ). در این صورت برای نقطه داریم:
(2) |
معادله (2) یک خط در فضای دو بعدی ورودی ( ، ) است. با فرض ، و میتوان نمودار خط (2) را در فضای و به دست آورد:
نمایش این خط در شکل (2) نشان داده شده است. میتوان نشان داد که بردار وزنها بر ابر صفحه جدا کننده عمود است [25]. تغییر بردار وزنها باعث تغییر موقعیت ابرصفحه جدا کننده در فضای ورودی میگردد. پس با انتخاب مناسب میتوان از این نورون برای طبقه بندی ورودیها به دو طبقه استفاده کرد. این نوع طبقه بندی برای دادههایی که به صورت خطی قابل جداسازی هستند یا به عبارت دیگر، بتوان آنها را با یک خط جدا نمود، مناسب هستند.
فرض کنید که یک نمونه ورودی ( ) داده شده و قرار است این ورودی به نورون تعلیم داده شود؛ یعنی میخواهیم وزنهای نورون را به دست آوریم. درفضای وزنها ( ها) معادله رویه تصمیم به شکل زیرخواهد بود.
(3) |
بردار ورودی مورد نظر به همراه یک مؤلفه اضافی (سطح آستانه) است. به عبارت دیگر ، بعدی است که دارای یک مقدار آستانه است.
شکل (2): نمودار خط جدا کننده در فضای دو بعدی ورودی ( ، ) با فرض ، و . بردار وزنها بر ابرصفحه (خط) جداکننده عمود است
با ثابت در نظرگرفتن ورودی ، رابطه (3) نمودار یک ابرصفحه در فضای وزنهاست که بردار ورودی برآن عمود است. فرض کنید که ورودی اول و ورودی دوم و ورودی سوم باشد. دراین صورت نمایش (ابر) صفحهای است در فضای وزنها که بر بردار ورودی عمود و از مبدا مختصات میگذرد (شکل (3)). با توجه به شکل (3) در یک طرف خط داریم 0 و در طرف دیگر است. به همین ترتیب صفحهی دیگری درفضای وزنهاست که از مبدا مختصات میگذرد و بر بردار ورودی عمود است.
فرض کنید که خروجیهای مطلوب به ورودیهای ، و عبارتند از: 1، 0 و1. با توجه به این خروجیها ناحیه مطلوبی که وزنها باید در آن قرار بگیرند، مکانی از صفحه فضای وزنهاست که در آن ، و باشد، که این نواحی همراه با صفحههای تصمیم مربوط به هر ورودی در شکل 3 نشان داده شده است. باید را در ناحیهای که این سه شرط را برآورده میسازد، انتخاب نمود. این ناحیه در شکل (3) با نشان داده شده است.
شکل (3): مکانی از فضای وزنها که در آن ، و باشد با نشان داده شده است.
تعلیم نورون؛ یعنی این که چگونه از یک اولیه به مطلوب برسیم. بنا براین، با توجه به شکل (3) باید با شروع از یک وزن اولیه به سمت ناحیه اشتراک دادههای تعلیم در فضای تعلیم حرکت کرد. همان طوری که در شکل (3) مشاهده میشود، این ناحیه یک فضای نامتناهی است بنابراین، بینهایت وزن میتوان برای نورون یافت که دادههای تعلیم را برآورده نماید. به عبارت دیگر، وزنهای مطلوب دارای مقدار یکتا نیستند و میتوانند مجموعهای از مقادیر را دارا باشند، اگر این نواحی ناحیه اشتراک نداشته باشند بدان معنی است که با این آرایش نورون نمیتوان این دادهها را به نورون تعلیم داد.
در این مقاله از شبکه عصبی کلاسیک ارائه شده در مرجع [23] به عنوان شبکه عصبی جلوسوی پایه استفاده شده است. این شبکه عصبی جلوسو دارای وزنهای ثابت است و بر اساس آنالیز مؤلفههای اساسی عمل میکند. شبکهای با ساختار 10، 750، 200، 200، 256 که داده ورودی ( تصویر ارقام دست نوشتار انگلیسی) را به برچسب آنها نسبت میدهد، با استفاده از روش ارائه شده در [23] تعلیم داده میشود و وزنهای آن که اعداد ثابتی هستند به دست میآیند. قصد داریم با تغییر آشوب گونه وزنها در محدوده مناسب مشابه آنچه در شکل 3 نشان داده شده است، روشی را ارائه نماییم تا الگوهایی که خیلی نزدیک به مرز تصمیم بوده و ممکن است در برخی شرایط در کلاس دیگری اعلام شوند، تشخیص داده شوند و پس از تشخیص آنها را با عنوان"وضعیت طبقه بندی نامشخص" اعلام نماید. چگونگی تبدیل این شبکه به شبکه عصبی با وزنهای آشوبی در بخشهای بعدی ارائه شده است.
معمولا با انتخاب مناسب پارامترهای سیستم غیرخطی میتوان آنها را به رفتار آشوبگونه مجبور نمود. سیستم آشوبگونه با شروع از یک نقطه از فضای حالت ناحیه مشخصی را جستجو میکند، بدون اینکه از نقطهای دو بار عبور کند. محدوده این ناحیه با استفاده از پارامترهای سیستم تعیین میشود. از ویژگیهای دیگر سیستمهای آشوبگونه وابستگی چگونگی جستجوی آنها در محدوده مشخص به شرایط اولیه است. در این مقاله از این ویژگیهای سیستم آشوبگونه برای یافتن وزنهای آشوبگونه مطلوب استفاده شده است.
تابع لجستیک یک تابع غیرخطی و دارای یک پارامتر کنترل است. در این تابع در هر لحظه خروجی لحظه بعد از رابطهی زیر به دست میآید:
(4) |
که در آن حالت سیستم در تکرار و پارامتر دوشاخه شدگی آن است. دینامیک این تابع به شدت به پارامتر وابسته است؛ به طوری که با تغییر این تابع از خود انواع رفتارها (از پریودیک تا آشوبگونه) را نشان میدهد[26] (شکل (4)). با قرار دادن تابع لجستیک از خود رفتار آشوبگونه نشان میدهد. در مرجع [1] رابطهای برای تابع لجستیک به صورت (5) تعریف شده است که در آن با اضافه کردن یک پارامتر جدید، ، به تابع لجستیک یک تابع جدید تعریف شده است که ناحیه را به صورت آشوبگونه جستجو میکند (با فرض ). با تغییر میتوان ناحیه جستجوی تابع را در حول مبدأ تغییر داد. شکل (5) نمودار این تابع را به ازای دو مقدار مختلف و نشان میدهد که به ترتیب دو ناحیه و را به ازای به صورت آشوبگونه جستجو میکند. در این مقاله از رابطه (5) برای تغییر محدوده جستجوی شبکه آشوب گونه جهت یافتن محدوده مناسب استفاده می شود.
(5) |
شکل (4): نمودار دوشاخه شدگی تابع لجستیک به ازای تغییر پارامتر A
شکل (5): ناحیه جستجوی تابع (5) به ازای دو مقدار مختلف 1) باعث جستجو در ناحیه میشود. 2) باعث جستجو در ناحیه میشود [1].
شکل (6) نمودار زمانی پنجاه نمونه از به ازای دو شرط اولیه مختلف را نشان میدهد. در این شکلها در نظر گرفته شده است. به ازای که سری زمانی پایه است، تمام مقادیر به دست آمده از تابع لجستیک (5) رسم شده است. به ازای تنها نمونههای زوج سری زمانی پایه، یا های به دست آمده از رابطه (6)رسم شدهاند.
(6) |
که از رابطه (5) محاسبه میشود. به ازای نمونههای مضرب 3 رسم شده است. همان طور که مشاهده میشود، با تغییر وضعیت این سیگنالها نسبت به هم تغییر میکند (بدون اینکه شرط اولیه را تغییر دهیم). علت این است که پارامتر طوری قرار داده شده که تابع لجستیک دارای دینامیک آشوبگونه باشد. این تغییر وضعیتها هیچ گاه تکرار نمیشوند، زیرا تابع لجستیک در وضعیت آشوب قرار دارد. همان طور که در قسمت بعد بیان خواهد شد، این خاصیت برای یافتن حالتی از آرایش وزنها که کمترین خطا را داشته باشند، استفاده میشود، به این صورت که با ایجاد آرایشهای مختلف(از طریق تغییر )، آرایشی که کمترین خطا را در بازشناسی دادهها دارد، پیدا میشود. به عبارت دیگر، با استفاده از این روش وزنهای پویای شبکه را طوری همزمان میکنیم که خطای شبکه نهایی کمینه باشد.
با اینکه روشهای رایج تعلیم شبکههای عصبی جلوسو وزنها را بر اساس محاسبات دقیق ریاضی و معین به دست میآورد، اما جوابی که برای وزنها به دست میآید یکتا نبوده، به شدت به شرایط اولیه وابسته است؛ به طوری که با انتخاب شرایط اولیه مختلف، وزنهای مختلفی برای شبکه به دست میآید. بنابراین، برای یک مجموعه تعلیم میتوان شبکههای مختلف با ساختار مشابه به دست آورد. به عبارت دیگر، وزنها به جای اینکه یک مقدار ثابت داشته باشند میتوانند مجموعهای از مقادیر مختلف را بگیرند؛ به طوری که این وزنها نسبت به هم طبق قاعده خاصی تغییر میکنند. همان طوری که در قسمتهای قبل توضیح داده شد در تعلیم شبکه پرسپترون وزنهای مطلوب در یک ناحیه از فضای وزنها هستند (ناحیه I در شکل (3)). که این ناحیه را دادههای تعلیم و ساختار شبکه تعیین میکنند. محدود شدن به یک مجموعه وزن ثابت باعث محدود کردن توانایی شبکه در بازشناسی دادهها، به خصوص دادههای جدید میشود. در این مقاله ناحیه وزنهای مطلوب یک شبکه به طور تقریبی به دست میآید و اثر تغییرات وزنها در این ناحیه مطلوب بر روی قدرت بازشناسی یک شبکه جلوسو بررسی میگردد. برای این منظور، ابتدا شبکه عصبی جلوسوی معرفی شده در بخشهای قبلی آشوبی میشود. سپس با جستجوی آشوبگونه آرایشهای مختلف وزنها، آن آرایشی که بهترین صحت باز شناسی را دارد، پیدا میشود. در این مقاله فقط وزنهای لایه اول آشوبی میشوند.
برای آشوبی کردن وزنهای یک شبکه جلوسو، مجموعهای از وزنهای آن را در نظر بگیرید. همان طوری که در شکل (3) نشان داده شده است، این وزنها یکتا نبوده، میتوانند متغیر باشند. یک دسته از این وزنها را به عنوان وزن پایه انتخاب میکنیم. به منظور طراحی شبکه عصبی پویا (آشوبگونه) برای هر وزنی که قرار است آشوبی شود یک تابع لجستیک با رابطه (5) در نظر میگیریم که در محدوده تغییر میکند. سپس خروجی این تابع را در هر لحظه به وزن پایه اضافه میکنیم. به این ترتیب وزنها در هر لحظه به صورت آشوبگونه تغییر میکنند. حال اگر یک الگو به عنوان ورودی به این شبکه اعمال کنیم، برخلاف شبکه ایستا، هر وزن مقادیری مختلف دارد و در نتیجه، تعداد زیادی الگوی خروجی داریم که هر یک حاوی اطلاعات مفیدی در مورد خروجی اصلی هستند. بدیهی است که این خروجیها دارای خطا هستند. نحوه تغییرات وزنها باید طوری انتخاب شود که خطای خروجی حداقل گردد؛ یعنی باید تغییرات وزنها طوری با هم همزمان شوند که خطای خروجی ایجاد شده مینیمم باشد. برای یافتن آرایشی از مقادیر وزنها که خطا را کمینه کند، آرایشهای مختلفی از وزنهای آشوب گونه را تولید کرده، خطای شبکه را برای هر آرایش به دست میآوریم. برای تغییر آرایش سری زمانی به دست آمده از رابطه (5) میتوان از تغییر شرط اولیه یا تغییر T استفاده نمود. در این مقاله برای تغییر آرایش وزنها همان طوری که در شکل (6) نشان داده شده است، از تغییر استفاده شده است. فعالیت هر تابع از شرط اولیه ثابت بسیار کوچک که متناسب با وزن پایه متناظر ( ) است، شروع می شود. بنابراین، برای یافتن وزنهای آشوبی اولا باید محدوده تغییرات این وزنها را تعیین کرد، که این کار از طریق تعیین مقدار مناسب انجام میشود. دوم اینکه T را طوری تعیین کنیم که خطای شبکه کمینه شود.
با مشخص شدن مقادیر T و در رابطه (5) و با شروع از شرط اولیه ثابت یک دنباله با مقادیر مشخص برای که متناظر با هر وزن است، به دست میآید که با دیگر وزنها همزمان است. به عبارت دیگر، این دنباله دارای ویژگی کاملا معین است. در حالی که اگر از یک متغییر تصادفی برای استفاده می شد در هر بازشناسی با سری جدیدی مواجه بودیم که با سری های تصادفی دیگر نمی توانست همزمان باشد. بنابراین، با ثابت کردن پارامترهای یک تابع آشوب و با شروع از یک شرط اولیه ثابت، یک سری زمانی داریم که کاملا معین است.
برای یافتن مطلوب نیز از دادههای تعلیم استفاده میشود. برای این منظور، در صد صحت بازشناسی شبکه جلو سوی تعلیم داده شده پایه بر روی دادگان تعلیم به دست میآید که معمولا 100% است. در رابطه (5) با شروع از یک مقدار مینیمم تعدادی از وزنهای شبکه را آشوبی میکنیم؛ به طوری که درصد صحت بازشناسی شبکه بر روی دادگان تعلیم همچنان 100% باقی بماند. مقدار (دامنه تغییرات آشوب گونه وزن ها) آنقدر افزایش داده میشود تا درصد صحت باز شناسی شبکه از 100% کمتر شود. در این صورت، حداکثر مقدار که به ازای آن درصد صحت بازشناسی شبکه جلوسو همچنان 100% است، به عنوان مطلوب در نظر گرفته میشود.
برای یافتن T مطلوب با شروع از T=1 و افزایش آن تا 100، برای هر T شبکه جلوسویی داریم که وزنهای آن به صورت آشوبگونه تغییر میکند. این شبکه برای هر تصویر ورودی بی شمار خروجی ایجاد میکند. صد خروجی اول مربوط به هر T را درنظر میگیریم. به روش مربعات خطا، خطای هر یک از این خروجیها را نسبت به خروجی اصلی (که عضو دادههای تعلیم است) به دست آورده، میانگین گیری میکنیم. را تا 100 افزایش داده، خطای متناظر با هر T را محاسبه میکنیم. سپس T متناظر با خطای کمینه را به عنوان T مطلوب در نظر میگیریم. به عبارت دیگر، در مطلوب وزنها طوری با هم همزمان میشوند که مقدار خطا کمینه میشود.
برای بررسی کارایی شبکه پیشنهادی، از آن برای بازشناسی ارقام دست نوشتار انگلیسی موجود در پایگاه دادههای USPS استفاده شد. این پایگاه داده حاوی 4649 داده تعلیم و 4649 داده تست است. دادههای تعلیم بردارهای به دست آمده از تصاویر 16×16 ارقام دست نوشتار انگلیسی هستند. تصویر ارقام دارای سطوح خاکستری هستند دامنه تغیرات هر نقطه تصویر در بازه [1، 1-] نرمال سازی شده است[27] .
4649 داده تست پایگاه داده USPS با روش ارائه شده در مرجع [23] به شبکهای با ساختار 10، 750، 200، 200، 256 که داده ورودی (تصویر ارقام دست نوشتار با 256 نقطه) را به برچسب آن نسبت میدهد، تعلیم داده شدند ماتریس وزن های لایه اول یک ماتریس با 257 ردیف (که یک ردیف مربوط به بایاس است) و 200 ستون است.
برای آشوبی کردن وزنهای ابتدا محدوده تغییرات وزنها ( مطلوب) تعیین شد. در این مقاله 30 ردیف اول از ماتریس وزن لایه اول آشوبی شدهاند. برای به دست آوردن مطلوب، به تدریج از 12/0 تا 28/0 با گام های 002/0 افزایش داده شد و درصد صحت بازشناسی شبکه بر روی داده های تعلیم برای هر یک از این ها محاسبه گردید. نمودار درصد بازشناسی شبکه آشوب گونه به ازای های مختلف در شکل (7) نشان داده شده است. به ازای 2/0= درصد صحت بازشناسی شبکه با دقت دو رقم اعشار همچنان 100% است. این مقدار را به عنوان مقدار مطلوب در نظر میگیریم.
برای همزمان کردن وزنها و یافتن T مطلوب به منظور رسیدن به خطای کمینه، T از 1 تا 100 افزایش داده می شود و خطای شبکه آشوبگونه متناظر با هر یک از این Tها محاسبه میگردد. سپس T متناظر با خطای مینیمم به عنوان T مطلوب در نظر گرفته میشود. شکل (8) نمودار خطای بازشناسی شبکه آشوب گونه را برای T های مختلف نشان می دهد. خطای بازشناسی شبکه آشوب گونه به ازای 12=T کمینه می شود. مقدار خطای کمینه برابر است. از روش متوسط مربعات خطا برای محاسبه خطا استفاده شده است.
پس از به دست آوردن و مطلوب شبکه آشوبگونه ایجاد شده مورد آزمون قرار گرفت و به ازای هر ورودی صد خروجی اول شبکه آشوبگونه در نظر گرفته شد. با بررسی نتایج به دست آمده، مشخص شد برای دادههایی که بهوسیله شبکه ایستا درست تشخیص داده شدهاند، اکثر 100 خروجی به دست آمده از شبکه آشوبگونه نیز این داده را در همان طبقهای که شبکه ایستا تشخیص داده است، قرار میدهد، اما دادههایی که توسط شبکه ایستا غلط تشخیص داده شدهاند، توسط شبکه آشوبگونه قابل تشخیص نبوده، این شبکه این دادهها را جزو طبقات مختلف، از جمله طبقه اصلی مربوط به داده ورودی قرار میدهد. بنابراین، از این ویژگی می توان برای تشخیص بازشناسیهای اشتباه شبکه ایستا استفاده کرد.
خروجیهای شبکه عصبی جلوسوی آشوبگونه به یک داده آزمون (عدد 3 دست نوشتار) که توسط شبکه ایستا درست تشخیص داده شده است، در شکل (9-1) نمایش داده شده است. چنانکه مشاهده میشود، تمامی صد خروجی شبکه آشوبگونه این داده را به طبقه 3 اختصاص میدهند.
0 |
5 |
10 |
15 |
20 |
25 |
30 |
35 |
40 |
45 |
50 |
|
0 |
|
T=2 |
Tk |
x |
0 |
5 |
15 10 |
15 10 |
20 |
25 |
35 |
40 |
45 |
50 |
|
0 |
|
T=1 |
x |
Tk |
0 |
5 |
10 |
15 |
20 |
25 |
30 |
35 |
40 |
45 |
50 |
|
0 |
|
T=3 |
Tk |
x |
o x(1)=0.4 |
> x(1)=-0.49 |
0.5 |
-0.5 |
0.5 |
0.5 |
-0.5 |
-0.5 |
شکل (6): نمودار زمانی مربوط به تابع لجستیک به ازای دو شرط اولیه مختلف و
شکل (7) نمودار درصد صحت بازشناسی شبکه عصبی آشوب گونه بر روی داده های تعلیم به ازای های مختلف.
T
|
شکل (8): نمودار خطای بازشناسی شبکه آشوب گونه به ازای Tهای مختلف. خطای بازشناسی شبکه آشوب گونه به ازای 12=T کمینه میشود. مقدار خطای کمینه برابر است. از روش متوسط مربعات خطا برای محاسبه خطا استفاده شده است.
شکل (9): فراوانی خروجی شبکه آشوبگونه (1) وقتی که شبکه ایستا داده تست را درست تشخیص داده است (2) وقتی که شبکه ایستا داده تست را اشتباه تشخیص داده است.
شکل (9-2) خروجیهای شبکه جلوسویآشوبگونه را در حالتی که داده تست ورودی 7 است و شبکه ایستا آن را به اشتباه 1 تشخیص داده است، نشان میدهد. همان طوری که مشاهده میشود، خروجیهای شبکه آشوبگونه این ورودی را جزو طبقات 1، 3 و 9 قرار دادهاند. به عبارت دیگر، شبکه جلو سوی آشوبگونه سردر گم است. از این خاصیت استفاده شده و معیاری تعیین شد که قادر است دادههایی را که توسط شبکه ایستا اشتباه تشخیص داده شدهاند، شناسایی و معرفی نماید. معیار اعمال شده به این صورت بود که اگر تعداد طبقاتی که صد خروجی اول شبکه آشوبگونه به آنها نسبت داده میشوند (برای یک ورودی تست) بیشتر از دو طبقه باشد، شبکه جلوی سوی ایستای پایه این ورودی را اشتباه تشخیص داده است. همچنین، اگر ماکزیمم فراوانی طبقات کمتر از 80 باشد نیز شبکه جلوسوی پایه در تشخیص خود اشتباه کرده است. برای تعیین محدوده تغییرات هر وزن از دادههای تعلیم استفاده شد. تغییرات را از یک محدوده کوچک شروع و کم کم این محدوده را زیاد نموده، این افزایش تا جایی ادامه مییابد که شبکه عصبی جلوسوی پایه (ایستا) در تشخیص دادههای تعلیم اشتباه کند.
صحت بازشناسی شبکه جلوسوی ایستا بر روی دادههای تعلیم 100% و بر روی 4649 داده تست 9/96% شد؛ یعنی این شبکه 143 داده تست را اشتباه تشخیص میدهد. با دینامیکی کردن این شبکه در محدوده مناسب توانستیم 187 داده را از دادههای تست جدا کنیم که تمامی 143 دادهای که توسط شبکه ایستا اشتباه تشخیص داده شده بودند، در این دسته بودند. به این ترتیب، شبکه دینامیکی توانست 100% اشتباهات شبکه جلوسو را تشخیص دهد، اما این شبکه 43 داده دیگر را که توسط شبکه ایستا درست تشخیص داده شده بود، به عنوان ناشناخته معرفی کرد. به این ترتیب 100% دادههایی را که تشخیص داده است درست است و حدود 4% دادههایی که قبلا درست تشخیص داده شده بودند را به عنوان ناشناخته معرفی کرد. با توجه به نوع مسأله و میزان مهم بودن تشخیص درست، میتوان معیارهای تصمیم گیری شبکه آشوبگونه را طوری تغییر داد تا به نتیجه مطلوب رسید. جدول (1) صحت باز شناسی دو شبکه را مقایسه کرده است.
جدول (1): مقایسه نتایج به دست آمده از آزمون شبکه ایستا ارائه شده در [23] و شبکه آشوبگونه بر روی 4649 داده آزمون.
خاصیت |
شبکه ایستا |
شبکه آشوبگونه |
درصد صحت تشخیص |
9/96 |
100 |
دادههایی که اشتباه طبقه بندی شدهاند |
143 |
0 |
دادههایی که به درستی طبقه بندی شدهاند |
4506 |
4462 |
دادههایی که شبکه در مورد آنها اظهار نظر نکرده است |
0 |
187 |
|
|
|
یکی از ویژگیهای مهم مغز، خاصیت دینامیکی آن است. در این مقاله سعی شد مدلی از شبکه عصبی آشوبگونه ارائه شود که ضمن دارا بودن خاصیت آشوبگونه از توان پردازشی بیشتری نسبت به شبکه عصبی پایه برخوردار باشد. بر خلاف شبکههای کلاسیک که در مورد همه ورودیها یک خروجی قطعی میدهند (هرچند که آن خروجی اشتباه باشد)، یک ویژگی قابل توجه مدل ارائه شده، این است که اگر قادر به تشخیص دادهای نباشد، اعلام میکند. این عملکرد شبکه عصبی آشوبگونه به عملکرد مغز بیشتر شبیه است. به عبارت دیگر این شبکه با هوش تر است و میداند که جواب برخی از ورودیها را ندارد.
سوالی که اینجا مطرح میشود، این است که چرا دینامیکی کردن وزنهای شبکه عصبی ایستا باعث ایجاد شبکه عصبی آشوبگونه با توان پردازشی بیشتر گردید؟ چگونه میتوان این اتفاق را از نظر قوانین حاکم بر شبکههای عصبی مصنوعی توجیه نمود؟ برای پاسخ به این سؤال به بررسی عملکرد وزنها در شبکه عصبی مصنوعی میپردازیم.
شبکه عصبی به عنوان یک طبقه بندی کننده، فضای ورودی را به نواحی تصمیم گیری تفکیک میکند. سرحد هر ناحیه تصمیم گیری را، مرز تصمیم گیری[iii] مینامند. گاهی اوقات تجسم حدود و نواحی تصمیم گیری راحت است، ولی همواره ممکن نیست.
نورون پرسپترون شکل (1) با تابع پلهای به عنوان تابع عملکردی نورون و را در نظر بگیرید. بنابراین فضای ورودی که در اینجا یک صفحه است، توسط مرز تصمیم گیری که یک خط است، به دو بخش تقسیم میشود (شکل 2). با تعمیم مطالب فوق، پی میبریم که معادله مرز تصمیم گیری وقتی ورودیها، یک فضای N بعدی را میسازند، یک ابر صفحهN-1 بعدی خواهد بود که در یک طرف آنy (خروجی نورون) برابر صفر و در طرف دیگر آن y برابر یک خواهد بود. اکنون فرض کنید که بخواهیم سیستمی داشته باشیم که دو گروه الگوهای ‘0’ و ‘X’ را در فضای دو بعدی، چنانکه در شکل (10) نشان داده شده است، از یکدیگر تفکیک نماید. نورون شکل 2 میتواند از عهده این کار بر آید، به طوری که اگر یکی از الگوهای ورودی ‘0’ به نورون اعمال شود، مقدار خروجی، 1- و اگر یکی از الگوهای ‘X’ به نورون اعمال شود، مقدار آن 1+ شود. الگوریتمهای یادگیری معمول مانند الگوریتم یادگیری پس انتشار خطا با آغاز از یک دسته وزن تصادفی که به منزله یک خط تصادفی در صفحه شکل (10) است، در جهت یافتن خطی که این دادهها را با خطای کمتر جداسازی نماید، حرکت میکند. هدف اکثر این الگوریتمها تنها یافتن نخستین دسته وزنی است که خطای آن از یک حد آستانه کمتر باشد، اما این خط تنها خط جدا کننده این دادهها نیست و لزوما بهینهترین آنها نیز نیست. همان طوری که در شکل( 11) نشان داده شده است برای جدا سازی دو ناحیه ‘0’ و ‘X’ خطهای مختلفی وجود دارد (L1، L2 و L3 و...)، اما بهتر آن است که به دنبال خطی باشیم که ضمن اینکه خطا را مینیمم میکند، حاشیه اطمینان را نیز افزایش دهد؛ یعنی خطی را انتخاب کنیم که فاصله نمونهها از آن ماکزیمم گردد. فاصله اطمینان نکتهای است که در شبکههای کلاسیک کمتر به آن توجه میشود.
شکل (10): مرز تصمیم گیری برای تفکیک الگوهای 0, X
شکل (11): برای جدا سازی دو ناحیه ‘0’ و ‘X’ خطهای مختلفی وجود دارد (L1، L2 و L3 و...). خطی که خطا را مینیمم میکند، حاشیه اطمینان را افزایش میدهد.
دینامیکی کردن وزنها در یک محدوده مشخص، در واقع به معنی جابه جایی این خطهای جداکننده طبقات است. این کار باعث میشود دادههایی که در مرز تصمیم قرار دارند؛ با هر بار جابهجایی خط تصمیم به طبقات مختلف نسبت داده شوند. معمولا اشتباههای یک شبکه مربوط به دادههایی است که در نزدیکی مرز تصمیم قرار دارند. بنابراین، همان گونه که نشان داده شد، دینامیکی کردن وزنهای شبکه در یک محدوده مناسب می تواند به شناسایی این دادهها کمک کند.
تحقیقات جدید، وجود رفتارهای آشوب گونه در عملکرد شبکههای عصبی طبیعی را اثبات کرده است. در این مقاله با استفاده از تابع لجستیک که دارای توان تنظیم محدوده خروجی است، تعدادی از وزنهای لایه اول یک شبکه جلوسو را به طور هماهنگ با هم طوری آشوب گونه کردیم که خطای شبکه حاصل مینیمم شود. این کار باعث شد تا دادههایی که در نزدیک مرز تصمیمگیری هستند و احتمال بازشناسی اشتباه آنها وجود دارد، شناسایی و جدا شوند. به این ترتیب، شبکه آشوبی حاصل توانست دادههای باقیمانده از دادههای تست را با 100% صحت بازشناسی کند. بنابراین، یکی از کاربردهای این شبکه میتواند در بازشناسیها باشد که بسیار حساس بوده، به صحت بازشناسی 100% نیاز دارند.
بهبود محدوده تغییر وزنها و استفاده از توابع دیگر (به جای تابع لجستیک) که همخوانی بیشتری با ساختار شبکه، دادههای تعلیم و ... دارند، میتواند نتایج را بهبود دهد. با اعمال پردازشهای مناسب بر روی خروجی شبکه آشوبگونه (شکل (9)) میتوان در مورد دادههایی که تشخیص داده نشدهاند اظهار نظر دقیقتری کرد.
یکی از ویژگیهای مهم شبکه آشوبی ارائه شده، این است که یک روش عمومی بوده، قابل اعمال به بسیاری دیگر از شبکههای عصبی معمولی است. از مشکلات این روش این است که برای هر داده ورودی صد داده خروجی حساب میشود، که این باعث طولانی شدن پروسه بازشناسی میشود. به عبارت دیگر، مقداری وقت صرف فکر کردن میکند! که از این نظر نیز میتوان گفت مانند شبکه های عصبی واقعی عمل می کند. مشکل دیگر این شبکه آشوبگونه این است که تعدادی از دادههایی که توسط شبکه پایه درست تشخیص داده شدهاند را نیز به عنوان غیرقابل تشخیص معرفی میگند، ولی در مقابل این شبکه تمامی خطاهای شبکه پایه را تشخیص میدهد. با تنظیم مناسب پارامترها و سطح آستانهها می توان به سطح مناسبی از صحت باز شناسی دست یافت.