Recognition of Emotion Provoked by Auditory Stimuli using EEG Signal Based on Deep Neural Networks

Document Type : Research Article

Authors

1 Faculty of Electrical and Computer Engineering, University of Tabriz, Tabriz, Iran

2 Department of Mechanical Engineering, University of Tabriz, Tabriz, Iran

3 Department of Physics, Urmia Branch, Islamic Azad University, Urmia, Iran

Abstract

Excitements are important for the proper interpretation of actions as well as relationships among individuals. Recognizing emotions through Electroencephalogram (EEG) allows recognition of emotional states without traditional methods including filling in the questionnaire. The automatic emotion recognition reflects the excitement of the individual without clinical examinations or need to visits, which plays a very important role in completing the Brain-Computer Interface (BCI) puzzle. One of the major challenges in this regard is first to select and extract the proper characteristics/features of the EEG signal in order to create an acceptable distinction between different emotional states. The process of finding the desirable feature is generally time consuming. This study presents a new approach for the automatic identification of 3-states of emotion (positive, negative and neutral) based on the auditory stimulation of EEG signals. In the proposed method, the raw EEG signal is directly applied to convolutional neural network-long short time memory (CNN-LSTM) network, without involving the extraction/selection feature. This has been a challenging process in previous literature. The proposed network architecture includes 10 convolutional layers with 3 LSTM layers followed by 2 fully connected layers. The simulation results of the proposed algorithm for classifying 2-stages (negative and positive) and 3-stages (negative, neutral and positive) of emotion for 12 active channels show the accuracy of 97.42% and 95.23% and Cohen’s Kappa coefficient of 0.96 and 0.93 respectively.

Keywords


1- مقدمه[1]

هیجان‌ها[1]نقش مهمی در زندگی انسان دارند. باوجود تاریخچۀ طولانی تحقیق در زمینۀ ماهیت هیجانات، تا کنون توافق عامی راجع به اینکه هیجانات چیست و چگونه می‌توان آن را نشان داد، حاصل نشده است. پُل کلینجینا تعریف نسبتاً جامعی برای هیجانات ارائه کرده است. او هیجان را حاصل تعامل عوامل ذهنی، محیطی و فرآیندهای عصبی و هورمونی بدن می‌داند. هیجان، حالت فیزیولوژیکی ذهنی و مرتبط با مغز است که با طیف گسترده‌ای از احساسات، رفتار و افکار مرتبط است. پس درواقع احساس به‌نوعی زیرمجموعه‌ای از هیجان محسوب می‌شود و در این پژوهش، بازشناسی هیجانات مدنظر است [1]. هیجانات به‌نوعی در میان مسائلی مانند تجارب روزانۀ هر انسان، ادراک و انجام وظایف روزانه مانند آموزش، ارتباطات و حتی تصمیم‌گیری‌های روزانه شکل می‌گیرد. بازشناسی هیجانات نقش مهمی در زندگی بشری داشته است و بیشتر تحقیقات سنتی و قدیمی در این زمینه از پارامترهای فیزیکی مثل حالت‌های صورت و حرکات بدن استفاده کرده‌اند. با گذشت زمان و پیشرفت علم و فناوری، شرایط برای اخذ اطلاعات به‌صورت مستقیم از مغز مهیا شده است. برای گرفتن اطلاعات از مغز گزینه‌های متعددی ازجمله تصویربرداری تشدید مغناطیسی عملکردی [2](fMRI)، الکتروانسفالوگرافی[3](EEG) و طیف‌سنجی مادون‌قرمز نزدیک [4](NIRS) وجود دارد. در این میان، استفاده از سیگنال EEG به‌دلیل مزایایش نسبت به سایر روش‌های اخذ سیگنال، متداول‌تر است. EEG دارای دو مزیت عمدۀ رزولوشن زمانی بالا، حمل‌شدنی و کم‌هزینه بودن ابعاد تجهیزات اندازه‌گیری است [2]. شناخت هیجانات ازطریق سیگنال EEG، امکان تشخیص حالات هیجانی را بدون روش‌های سنتی ازجمله پرکردن پرسشنامه، میسر و بدون معاینات و ویزیت‌های بالینی، هیجان مدنظر را در فرد بازگو می‌کند که نقش بسیار مهمی در تکمیل‌کردن پازل تعامل بین مغز و کامپیوتر [5](BCI) دارد [2]. روش‌های متفاوتی برای القای هیجانات در انسان وجود دارد. تماشای فیلم‌های احساسی، تماشای تصاویر احساسی، تصویرسازی‌های ذهنی و موسیقی‌های احساسی برخی از روش‌های القای هیجانات‌اند [3].

در شناخت هیجانات ازطریق EEG، عموماً بر مناسب‌بودن ویژگی‌ها موافقت زیادی وجود ندارد و در پژوهش‌های اندکی تعداد کمی ویژگی‌های مختلف باهم مقایسه شده‌اند؛ به‌طور مثال، در مطالعات انجام‌شده در این زمینه، در [4] پنج نفر با القای تحریک‌های هیجانی ازطریق تصویر آزمایش شده‌اند. تصاویر هرکدام به مدت 6 ثانیه از فاصلۀ 5 متری برای افراد تحت آزمایش با یک نمایشگر نشان داده شده‌اند. با احتساب 15 ثانیه زمان بین القای حالات هیجانی و 2 ثانیه زمان بین پخش تصاویر، درمجموع، مدت ثبت سیگنال 20 دقیقه بوده و سه هیجان خوش‌آیندی[6]، حالت خنثی[7] و ناخوشایندی[8] در آنها بررسی شده است. همچنین در این پژوهش، دو دسته ویژگی با یکدیگر مقایسه شده‌اند که با تبدیل فوریه سریع[9] و استخراج تعدادی ویژگی‌های آماری با به‌کارگیری ماشین بردار پشتیبان[10] (SVM) به‌عنوان طبقه‌بند برای هر دو حالت، نرخ بازشناسی صحیح 66% گزارش شده است. در [5]، دو کلاس هیجانی آرامش[11] در حالتی آرام و با چشمانی باز آزمایش شده‌اند. در این پژوهش از بخش‌بندی داده و رگرسیون خطی[12] برای استخراج ویژگی استفاده شده است. این آزمایش روی 43 نفر انجام شده است. سپس با استفاده از عملیات نرمال‌سازی سیگنال و استفاده از خوشه‌بندی‌های فازی[13] در باندهای فرکانسی مختلف، نتایج کمی به دست آمده‌اند. در [6]، استخراج ویژگی‌ها برای شناخت هیجانات ازطریق سیگنال‌های EEG 64 کاناله با یکدیگر، مقایسه و ویژگی‌های مهم در حوزۀ شناخت با استفاده از تکنیک‌های یادگیری ماشین، انتخاب شده‌اند. در این مقاله، ویژگی‌هایی در هر یک از سه حوزه زمان، فرکانس و زمان - فرکانس روی داده‌هایی متشکل از 7 زن و 9 مرد استخراج شده‌اند. داده‌ها شامل 5 بار هیجانی (شادی، کنجکاوی، عصبانیت، ناراحتی و آرامش) بوده‌اند و به کمک تصاویر [14]IAPS در 8 قسمت 30 ثانیه‌ای برای هر کلاس هیجانی، استفاده و با دو بعد آزمون خودارزیابی آدمک [15](SAM)، صحت القایشان با محک مدل سه‌بعدی هیجانات اعتبار سنجی شده‌اند. در مرحلۀ پردازش سیگنال، دادۀ مربوط به 5 شرکت‌کننده به علت کیفیت پایین سیگنال ضبط‌شده کنار گذاشته شده و میانگین 11 فرد با 6 استخراج ویژگی مختلف و استفاده از [16]QDA به‌عنوان طبقه‌بند صحت بازیابی هیجانات بین 34% تا 36% گزارش شده است. در [7]، از شبکۀ یادگیری عمیق [17]DLN در بازشناسی هیجانات ازطریق سیگنال EEG بهره گرفته شده است. در این پژوهش، از 32 نفر ثبت سیگنال با 32 کانال انجام شده است. همچنین، برای استخراج ویژگی‌های مهم، الگوریتم [18]PCA اعمال شده است. نکتۀ شایان توجه در این پژوهش، استخراج ویژگی و طبقه‌بندی به‌صورت جداگانه برای هرکدام از ابعاد انگیختگی و ظرفیت است. نتایج حاصل با اعمال طبقه‌بند SVM و طبقه‌بند Bayes ارزیابی شده‌اند. طبق گزارش‌ها پس از طبقه‌بندی مشخص شده که شبکه DLN بهتر از SVM عمل کرده است. در این پژوهش، بخش استخراج ویژگی به‌صورت ثابت در نظر گرفته شده و در بخش طبقه‌بندی چهار الگوریتم مختلف و ترکیبی استفاده شده است. برای مشخص‌شدن میزان کارایی روش پیشنهادی، از 3 معیار کمی و معمول استفاده شده است. به همین منظور، برای ارزیابی عملکرد روش پیشنهادی، معیار‌های شاخص حساسیت، صحت و اختصاصیت محاسبه شده‌اند. زمانی که بتوان داده‌ها را به دو گروه مثبت و منفی تقسیم کرد، حساسیت به معنی نسبتی از موارد مثبت است که آزمایش آنها را به‌درستی، مثبت علامت‌گذاری می‌کند. اختصاصیت به معنی نسبتی از موارد منفی است که آزمایش آنها را به‌درستی، منفی علامت‌گذاری می‌کند و صحت به معنی تعداد تشخیص‌های درست دو کلاس نسبت به تمام تشخیص‌های درست و نادرست دو کلاس است. نتایج طبقه‌بندی این پژوهش در تشخیص صحیح بعد ظرفیت 42/53% با انحراف معیار 64% و تشخیص صحیح بعد انگیختگی 52% با انحراف معیار 75% گزارش شده‌اند. در [8]، سه دسته ویژگی در بازشناسی هیجانات مطابق با تحریک ویدیویی براساس دیتاست ثبت‌شدۀ اختصاصی با یکدیگر مقایسه شده‌اند. سپس ماتریس ویژگی حاصل، با SVM طبقه‌بندی شده است. همچنین، فرکانس نمونه‌برداری در این پژوهش 100 هرتز بوده است. نتایج نهایی این مقاله با توجه به تنوع ویژگی‌های استفاده‌شده و اعمال یک مرحلۀ هموارسازی ویژگی برای 6 فرد با صحت 87% گزارش شده‌‌اند. ییمین و همکاران [9] از یک مدل مبتنی بر همبستگی برای استخراج ویژگی‌ها از سیگنال‌های EEG برای طبقه‌بندی هیجانات مختلف (آرامش، شادی، غم و اندوه) روی 8 شرکت‌کننده استفاده کردند. آنها از طبقه‌بندهایBP ، SVM ، LDA و C4.5 استفاده کردند و نتیجه گرفتند طبقه‌بند C4.5 برای تشخیص احساسات، بهتر از سایر طبقه‌بندها عمل می‌کند. فاطمه و همکاران [10] از یک آبشار موازی فازی برای پیش‌بینی محتوای عاطفی هیجانات از سیگنال‌های EEG استفاده کردند. این پژوهشگران از تحریک موسیقی روی 15 نفر شرکت‌کننده در آزمایش خود استفاده کردند. آنها همچنین مدل پیشنهادی خود را با چند الگوریتم رایج مقایسه کردند. خطای مدل پیشنهادی آنها برای طبقه‌بندی 2 هیجان در حدود 089/0 گزارش شد. پانایو و همکاران [11] از شبکه‌های عصبی عمیق برای تشخیص دو نوع هیجان با استفاده از سیگنال‌های EEG استفاده کردند. این پژوهشگران 12 شرکت‌کننده را در آزمایش خود به‌ کار گرفتند. معماری شبکۀ پیشنهادی آنها از 6 لایۀ کانولوشن تشکیل شده بود. آنها الگوریتم پیشنهادی خود را با SVM مقایسه کردند و به این نتیجه رسیدند که مدل پیشنهادی آنها عملکرد بهتری در تشخیص احساسات دارد. یانگ و همکاران [12] از یک شبکۀ عصبی بازگشتی برای شناسایی خودکار هیجانات از سیگنال‌های EEG استفاده کردند. این محققان در آزمایشات خود از مجموعه داده‌های مبتنی بر تحریک ویدیویی بهره گرفتند. همچنین، آنها در روش پیشنهادی خود سیگنال‌های تک‌بعدی EEG را به فریم‌های دوبعدی به‌منظور آموزش شبکه تبدیل کردند. صحت گزارش‌شدۀ آنها برای هر دو کلاس ظرفیت و هیجان به‌ترتیب 90 % و 91 % گزارش شده است. چن و همکاران [13] برای طبقه‌بندی خودکار هیجانات دو کلاسه از سیگنال‌های EEG استفاده کردند. این پژوهشگران، از شبکه‌های عصبی تکرارشوندۀ موازی در الگوریتم پیشنهادی خود به کار گرفتند. صحت نهایی گزارش‌شده برای طبقه‌بندی کلاس ظرفیت و برانگیختگی براساس الگوریتم پیشنهادی آنها به‌ترتیب 64/93 % و 26/93 % گزارش شده است. وی و همکاران [14] از تبدیل موجک دوگانه برای استخراج ویژگی‌های مطلوب از سیگنال‌های EEG به‌منظور بازشناسی هیجانات استفاده کردند. همچنین این پژوهشگران پس از استخراج ویژگی‌های مطلوب، از واحدهای بازگشتی به‌منظور آموزش مدل خود بهره گرفتند. درنهایت آنها به‌ترتیب به صحت 85 %، 84 % و 87 % برای کلاس‌های هیجان مثبت، منفی و خنثی دست یافتند.

چالش عمده در الگوریتم‌های بازشناسی هیجانات از سیگنال‌های EEG، انتخاب ویژگی‌ متمایزکنندۀ مراحل مختلف هیجانی از یکدیگر است. در بیشتر مطالعات پیشین برای تشخیص خودکار مراحل مختلف هیجانی از روش‌های مرسوم آماری و پردازشی، ویژگی‌های استخراج‌شده و سپس با روش‌های کاهش ویژگی، ویژگی‌های مطلوب و بهینه انتخاب می‌شدند. استخراج این ویژگی‌ها به‌صورت دستی در طبقه‌بندی مراحل مختلف هیجانات، باعث پیچیدگی بار محاسباتی الگوریتم خواهد شد. به‌علاوه، ویژگی‌های مطلوب و بهینه در یک مسئله ممکن است برای مسئله‌ای دیگر، ویژگی بهینه‌ای محسوب نشود؛ بنابراین، استفاده از روشی که بتواند ویژگی‌های مناسب را بسته به نوع مسئله و داده یاد بگیرد، امری ضروری است. این مسئله، نکتۀ کلیدی این پژوهش است. در این مقاله، یک الگوریتم تماماً خودکار دسته‌بندی (بدون نیاز به انتخاب و استخراج ویژگی به‌صورت دستی) برای تشخیص 3 مرحلۀ هیجان (مثبت، منفی و خنثی)، با صحت و سرعت پیش‌بینی بالا با استفاده از سیگنال‌های EEG بر مبنای یادگیری عمیق و شبکه CNN طراحی‌ شده است تا سیگنال خام اولیه را به‌منظور یادگیری ویژگی‌ها و شناسایی خودکار مراحل مختلف هیجانات پردازش کند.

ادامة مقاله به‌صورت زیر تدوین شده است. در بخش 2، داده‌های آزمایشی ثبت‌شده با استفاده از تحریک موسیقیایی بررسی می‌شوند و شبکۀ عصبی کانولوشنال به‌همراه شبکۀ حافظۀ طولانی کوتاه‌مدت توضیح داده می‌شود. در بخش 3، معماری شبکه روش پیشنهادی براساس (CNN-LSTM) ارائه می‌شود. در بخش 4، نتایج شبیه‌سازی بررسی می‌شوند. درنهایت، بخش 5 مربوط به نتیجه‌گیری است.

 

2- مواد و روش‌ها

در این بخش، ابتدا مجموعۀ داده‌های ثبت‌شده EEG توضیح داده می‌شود، سپس شبکه‌های عصبی عمیق بررسی می‌شوند.

 

2-1- ثبت سیگنال EEG

برای بازشناسی هیجانات از روی سیگنال EEG به ایجاد یک پایگاه برای 3 هیجان مثبت، منفی و خنثی اقدام شده است. برای ارزیابی 2 هیجان مثبت و منفی از آزمون ارزیابی *[19]SAM در نسخۀ کاغذی و 9 درجه‌ای در فرآیند آزمایش استفاده شد. در این آزمون، نمرۀ پایین‌تر از 3، پایین و نمرۀ بالاتر از 6 بالا محسوب می‌شود [6]. پیش از ثبت سیگنال از تمام شرکت‌کنندگان خواسته شد تا فرم رضایت‌نامه (نداشتن سابقۀ بیماری روحی و روانی، نداشتن بیماری صرع، استفاده نکردن از داروهای روان‌پزشکی، داشتن خواب کافی قبل از آزمون، مصرف‌نکردن غذاهای چرب و مواد کافئین قبل از آزمایش و شست‌وشوی موها قبل از آزمون) را مطالعه و در صورت تمایل به شرکت در آزمون آن را امضا کنند. سپس از شرکت‌کنندگان خواسته شد تا پرسشنامۀ خلق آنی افسردگی بک[20] را تکمیل کنند. پس از تکمیل پرسشنامه، طبق استانداردهای روان‌شناسی، آن دسته از شرکت‌کنندگانی که نمرۀ بالاتر از 21 در این آزمون به دست آورده‌اند، از فرآیند پردازش و نتیجه‌گیری کنار گذاشته شده‌اند. برای ثبت سیگنال از 16 نفر (6 زن و 10 مرد) در بازۀ سنی 20 تا 28 سال دعوت به همکاری شد. سیگنال EEG افراد درحال گوش‌دادن به موسیقی ثبت شد. کلیۀ ثبت‌های انجام‌شده در نور و دمای کنترل‌شدۀ محیط (24 درجۀ سانتی‌گراد) در ساعات 9 صبح الی 14 ظهر انجام شدند تا افراد احساس خستگی نداشته‌ باشند. یک صندلی راحتی برای نشستن افراد به‌منظور القای بهتر و جلوگیری از نویزهای حرکتی تهیه شد. همچنین برای جلوگیری از نویز [21]EOG از تمامی افراد خواسته شد تا در فرآیند ثبت سیگنال، چشمانشان را بسته نگه‌ دارند. برای ثبت سیگنال از دستگاه 21 کاناله Encephalan شرکت مدیکام روسیه (Medicom) استفاده شده است. دربارۀ آرایش الکترودها روی سر، از سیستم استاندارد بین‌المللی 10–20 استفاده شده است. فرکانس نمونه‌برداری در هنگام ثبت 250 هرتز با تطبیق امپدانس 10 کیلو اهم بوده است. تعداد الکترودهای دستگاه ثبت سیگنال آزمایشگاه 21 الکترود بود که در مرحلۀ پردازش با نرم‌افزار متلب طبق استاندارد، عملاً 19 کانال در اختیار قرار گرفته است. به دلیل راحتی و تنظیم صحیح الکترودها روی سر، از کلاه مخصوص آن استفاده شده است. در شکل 1 نمایی از ثبت سیگنال یکی از شرکت‌کنندگان نشان داده شده است. شرح نتایج آزمون افسردگی بک و خودارزیاب مانکن، در جدول 1 نمایش داده شده است؛ برای ‌مثال، طبق جدول 1، فرد شماره 3 به دلیل تطابق‌نداشتن پاسخ به سؤال کنترلی در آزمون SAM (میانگین بعد انگیختگی القایی بالاتر از 3 است) از روند پردازش کنار گذاشته شده است. جزئیات نتیجۀ اعتبارسنجی القای هیجان با آزمون خودارزیاب مانکن، برای فرد شماره 1 در شکل 2 نمایش داده شده‌‌اند. با توجه به شکل 2 و جدول 1، فرد شماره 1 با میانگین بعد ظرفیت القایی هیجان مثبت 9 (بزرگ‌تر از 6) و میانگین بعد انگیختگی القایی هیجان منفی (کوچک‌تر از 3) و نمره افسردگی بک 16 (16<21) وارد روند پردازش شده است.

برای تحریک هیجان مثبت و منفی در افراد از تحریک موسیقایی استفاده شد. هر قطعه موسیقی به مدت یک دقیقه پخش شده و بین هر دو قطعه پانزده ثانیه سکوت (حالت خنثی) برای جلوگیری از انتقال جانب دارانۀ هیجان در نظر گرفته شده است. درخور ذکر است برای القای بهتر از پخش با بلندگو اجتناب شده و از هدفون با توجه به نویز کمتر برای پخش موسیقی استفاده شده است.

تم و حالت موسیقی، تأثیر عمومی و فیزیولوژیک دارد و بر هر فردی با مکانیسم ذهنی و عاطفی مختلف تأثیر می‌گذارد؛ اما اندازه و شدت این تأثیر به وضعیت سلول‌های عصبی، سابقۀ ذهنی و عادت شنونده بستگی دارد. برای تحریک موسیقایی در افراد آزمایش‌شده، برای دو هیجان مثبت و منفی، طبق [15] تم حزین برای القای هیجان منفی و تم هیجانی (هیستیریکال) برای القای هیجان مثبت استفاده شد. جدول 2 جزئیات موسیقی‌های انتخابی را برای هر تم و شکل 3 ترتیب و نحوۀ پخش محرک موسیقیایی را برای افراد شرکت‌کننده نشان می‌دهد (مطابق با شکل 3، کلمات اختصاری N و P به‌ترتیب به هیجان منفی و هیجان مثبت مربوط است).

 

شکل (1): ثبت سیگنال EEG از یکی از شرکت‌کنندگان.

 

 

شکل (2): نتیجۀ اعتبارسنجی SAM دربارۀ میزان القای مؤثر محرک هیجانی (10 قطعه موسیقی) برای سوژه اول.

 

منظور از بهینه‌سازی مصرف انرژی انتخاب الگوها، اتخاذ و به‌کارگیری روش‌ها و سیاست‌هایی در مصرف انرژی الکتریکی است. ساختمان‌های مسکونی بخش مهمی از مصرف‌کنندگان انرژی الکتریکی به شمار می‌آیند. ورود تکنولوژی سیستم مدیریت هوشمند به ساختمان‌های مسکونی، تا حدودی مصرف انرژی الکتریکی را بهینه کرده است.

 

  

جدول (1): اعتبارسنجی افراد شرکت‌کننده در فرآیند ثبت سیگنال EEG

شماره سوژه

جنسیت

سن

نمره افسردگی بک

میانگین بعد ظرفیت القایی هیجان مثبت

میانگین بعد انگیختگی القایی هیجان مثبت

میانگین بعد ظرفیت القایی هیجان منفی

میانگین بعد انگیختگی القایی هیجان منفی

نتیجۀ اعتبارسنجی

علت حذف سوژه از مرحلۀ پردازش

1

پسر

25

16

9

9

8/1

1

P

-

2

پسر

24

22

8/6

2/6

6/3

2

*

افسردگی بک (21<22)

3

دختر

27

19

2/6

4/7

2/4

6/4

*

عدم تطابق پاسخ به سؤال کنترلی در آزمون SAM

4

پسر

24

4

4/7

6/7

4/2

6/2

P

-

5

پسر

24

0

8/5

5

4/4

6/5

*

عدم تطابق پاسخ به سؤال کنترلی در آزمون SAM

6

پسر

28

10

6/5

4/5

2

6/1

*

عدم القای مورد نظر در کلاس هیجانی مثبت

7

پسر

28

13

2/7

4/7

8/3

8/3

*

عدم القای مدنظر در کلاس هیجانی منفی

8

پسر

20

19

8/7

4/7

8/2

3

P

-

9

پسر

26

9

4/7

7

4/3

4/5

*

عدم القای مدنظر در کلاس هیجانی منفی

10

دختر

23

9

8/6

6/6

8/3

2/3

*

عدم القای مدنظر در کلاس هیجانی منفی

11

دختر

25

22

8/7

8

5/4

3

*

افسردگی بک (21<22)

12

دختر

27

1

6/8

6/8

2

2/1

P

-

13

دختر

29

9

6

6

2

2/1

P

-

14

پسر

26

8

8

8

8/1

6/1

P

-

15

دختر

25

12

-

-

-

-

-

نویز حرکتی و نویز EOG

16

پسر

27

0

4/7

8

8/1

2

P

-

                     

 

 

 شکل (3): ترتیب پخش موسیقی برای شرکت‌کنندگان.

 

2-2- شبکه‌های عصبی کانولوشن

شبکۀ عصبی کانولوشنال، درواقع یک شبکۀ عصبی بهبودیافته است. در این شبکه، چندین لایه با روشی قدرتمند در کنار هم آموزش می‌بینند [16]. این روش، بسیار کارآمد بوده و یکی از رایج‌ترین روش‌ها در کاربردهای مختلف بینایی ماشین است. همانند شبکه‌های عصبی مصنوعی (ANN)، تصمیم خروجی نهایی مدل CNN براساس وزن و بایاس لایه‌های قبلی در ساختار شبکه است.

 

جدول (2): آهنگ‌های به‌کاررفته برای القای هیجان.

علامت اختصاری

معنی

آهنگ استفاده‌شده

N1

القای هیجان منفی

پیش‌درآمد اصفهان

اثر محمدرضا لطفی

P1

القای هیجان مثبت

شش و هشت آذری

N2

القای هیجان منفی

پیش‌درآمد همایون

اثر فرامرز پایور

P2

القای هیجان مثبت

شش و هشت آذری

P3

القای هیجان مثبت

شش‌ و هشت بندری

N3

القای هیجان منفی

قطعه افشاری

اثر سهراب پورناظری

N4

القای هیجان منفی

پیش‌درآمد اصفهان

اثر محمدرضا لطفی

P4

القای هیجان مثبت

شش و هشت فارسی

N5

القای هیجان منفی

پیش‌درآمد دشتی

اثر کیهان کلهر

P5

القای هیجان مثبت

شش و هشت بندری

در هر شبکۀ عصبی کانولوشنال، دو مرحله برای آموزش وجود دارد؛ مرحلۀ انتشار پیشرو[22] و مرحلۀ پس‌انتشار[23] (BP) [17]. در مرحلۀ نخست، داده‌های ورودی به شبکه اعمال می‌شوند و این عمل چیزی جز ضرب نقطه‌ای بین ورودی و پارامترهای هر نورون و درنهایت اعمال عملیات کانولوشن در هر لایه نیست و درنهایت، خروجی شبکه محاسبه می‌شود. به‌منظور تنظیم پارامترهای شبکه یا به‌ عبارت ‌دیگر آموزش شبکه، از نتیجۀ خروجی برای محاسبۀ میزان خطای شبکه استفاده می‌شود. برای این کار، خروجی شبکه با استفاده از یک تابع خطا[24] با پاسخ صحیح، مقایسه و میزان خطا محاسبه می‌شود.  BP روشی برای محاسبۀ گرادیان تابع اتلاف نسبت به وزن‌ها است. BP سیگنال‌های خطا را در شبکه در حین آموزش پس‌ می‌زند و باعث به‌روزرسانی وزن‌ها می‌شود. در مرحله بعد، براساس میزان خطای محاسبه‌شده، مرحلۀ پس‌انتشار آغاز می‌شود. در این مرحله، گرادیانت هر پارامتر با توجه به ‌قاعدۀ زنجیره‌ای محاسبه می‌شود و تمامی پارامترها با توجه به تأثیرشان بر خطای ایجادشده در شبکه، به‌روزرسانی می‌شوند. بعد از به‌روزرسانی پارامترها، مرحلۀ بعدی انتشار پیشرو آغاز خواهد شد. بعد از تکرار تعداد مناسبی از این مراحل، آموزش شبکه به پایان می‌رسد. در این شبکه، خروجی هر لایه همان ویژگی‌ها هستند که بعد کمتری نسبت به داده اصلی دارند.

به‌طور کلی، یک شبکۀ کانولوشنال از سه لایۀ اصلی تشکیل می‌شود که عبارت‌اند از: لایه کانولوشن، لایه ادغام[25] و لایه تمام متصل[26] (FC) [16]. برای جلوگیری از فرآیند بیش‌برازش[27]‌‌ و بهبود عملکرد شبکه از لایه‌های حذف تصادفی[28] و نرمال‌سازی دسته‌ای[29] نیز استفاده می‌شود. همچنین در شبکه‌های عصبی نیاز است پس از هر لایه از تابع فعال‌سازی‌‌ استفاده شود که در ادامه، این لایه‌ها و توابع به‌اجمال معرفی می‌شوند.

لایۀ کانولوشن: شامل فیلترهایی (کرنل‌هایی) است که روی سیگنال EEG می‌لغزند. یک کرنل، یک ماتریس است که با سیگنال ورودی EEG کانوالو می‌شود. این لایه عمل کانولوشن را روی سیگنال EEG ورودی با استفاده از کرنل انجام می‌دهد. خروجی کانولوشن را نگاشت ویژگی می‌نامند. عملگر کانولوشن به شرح زیر است:

(1)

 

 

که x سیگنال، h فیلتر، N تعداد عناصر در x و y بردار خروجی است.

لایۀ ادغام: این لایه به کاهش نمونه[30] هم معروف است و ابعاد نورون‌های خروجی را از لایۀ کانولوشن کاهش می‌دهد و باعث کاهش محاسبات و نیز جلوگیری از پدیدۀ بیش‌برازش می‌شود. در این پژوهش، از لایۀ ادغام بیشینه[31] استفاده شده است که فقط مقادیر بیشینه در هر نگاشت ویژگی را انتخاب می‌کند و باعث کاهش تعداد نورون‌های خروجی می‌شود.

لایۀ FC: دارای اتصال کامل به تمام فعال‌سازی‌ها در لایۀ قبلی است.

لایۀ حذف تصادفی: از این لایه به‌منظور جلوگیری از پدیدۀ بیش‌برازش استفاده می‌شود [17]. نحوۀ کار آن به این صورت است که در هر مرحله از آموزش، هر نورون با احتمالی از شبکه بیرون انداخته می‌شود؛ به طوری که درنهایت یک شبکۀ کاهش‌داده‌شده باقی می‌ماند.

لایۀ نرمال‌سازی دسته‌ای: این لایه به‌منظور نرمال‌سازی داده‌ها در داخل شبکه انجام می‌شود [18]. زمانی که محاسبات مختلف روی ‌دادۀ ورودی اعمال ‌شود، توزیع داده‌ها تغییر پیدا خواهد کرد. این لایه با هدف کاهش تغییر کوواریانس داخلی، سرعت آموزش شبکه را افزایش و باعث تسریع در همگرایی می‌شود. تبدیل لایۀ نرمال‌سازی دسته‌ای به شرح زیر است:

(2)

 

 

که  و به‌ترتیب میانگین و واریانس دسته‌اند.  یک ثابت کوچک برای ثبات عددی، شماره لایه،  بردار ورودی به لایه نرمال‌ساز، بردار خروجی نرمال مربوط به یک نورون، و به‌ترتیب پارامترهای مربوط به مقیاس و تغییر نرخ یادگیری‌اند.

تابع فعال‌سازی: پس از هر لایۀ کانولوشن، یک تابع فعال‌سازی اعمال می‌شود. تابع فعال‌سازی یک عملگر است که خروجی را به مجموعه‌ای از ورودی‌ها نگاشت می‌کند و برای غیرخطی کردن ساختار شبکه استفاده می‌شود [19]. در این پژوهش، از تابع LeakyRelu به‌عنوان فعال‌سازی در هر لایه استفاده شده است و این ویژگی را دارد که غیرخطی بودن و تنکی را به ساختار شبکه اعمال کند؛ بنابراین، در برابر تغییرات جزئی در ورودی مقاوم است. رابطۀ 3 تابع LeakyRelu را نشان می‌دهد که در حالت نرمال  است.

(3)

 

 

تابع سافت مکس[32]: این تابع توزیع احتمالی کلاس‌های خروجی را محاسبه می‌کند؛ بنابراین، در لایۀ تمام متصل آخر از تابع سافت‌مکس برای پیش‌بینی اینکه کدام سیگنال ورودی به هیجان مثبت، منفی و خنثی مربوط است، استفاده می‌شود و رابطۀ آن به فرم زیر است:

(4)

 

 

که در آن، x ورودی شبکه است و مقادیر خروجی p بین صفر و یک بوده که مجموع آنها برابر با یک است.

 

2-3-شبکۀ حافظه‌ طولانی کوتاه‌مدت (LSTM)

شبکۀ حافظۀ طولانی کوتاه‌مدت[33] (LSTM) ازجمله شبکه‌های عصبی بازگشتی[34] (RNN) است که به‌منظور رفع ضعف‌های شبکه‌های عصبی بازگشتی کلاسیک ازجمله حل مشکل پرکندگی گرادیان به کار برده می‌شوند. برخلاف شبکۀ عصبی بازگشتی سنتی که صرفاً جمع متوازن سیگنال‌های ورودی را محاسبه می‌کند و سپس از یک تابع فعال‌سازی عبور می‌دهد، هر واحد LSTM از یک حافظه Ct در زمان tبهره می‌برد. فعال‌سازی (خروجی) واحد LSTM به‌صورت رابطۀ (5) تعریف می‌شود.

(5)

 

 

که در آن  دروازۀ خروجی بوده و کنترل‌کنندۀ میزان محتوایی است که ازطریق حافظه ارائه می‌شود. دروازۀ خروجی ازطریق رابطه (6) محاسبه می‌شود:

(6)

 

 

که در آن تابع‌فعال‌سازی سیگموئید است. WOنیز یک ماتریس اوریب است. سلول حافظه Ctنیز با فراموشی نسبی حافظۀ فعلی و اضافه‌کردن محتوای حافظۀ جدید به‌صورت از رابطۀ (7) به‌روزرسانی می‌شود که در آن محتوای حافظۀ جدید از رابطۀ (8) به دست می‌آید.

(7)

 

(8)

 

 

آن میزان حافظۀ فعلی که باید فراموش شود با دروازۀ فراموشی کنترل می‌شود و آن مقدار از حافظۀ جدید که باید به سلول حافظه اضافه شود، با دروازۀ به‌روزرسانی (دروازه ورودی)  انجام می‌گیرد. این عمل در رابطه (9) و (10) نشان داده شده است [20، 21].

(9)

 

(10)

 

 

پژوهشگران در این پژوهش قصد دارند در روش پیشنهادی خود از ترکیب شبکه‌های CNN با شبکه‌های LSTM به‌منظور افزایش پایداری و کاهش نوسانات معماری پیشنهادی استفاده کنند.

 

3- روش پیشنهادی

در این بخش، روش پیشنهادی مقاله ارائه می‌شود. شکل 4 ساختار کلی روش پیشنهادی را نشان می‌دهد.

 

 

شکل (4): بلوک-دیاگرام الگوریتم پیشنهادی.

 

3-1- پیش‌پردازش داده‌ها

ابتدا دادگان با استفاده از نرمال‌ساز Min-Max بین صفر و یک نرمالیزه شدند، سپس یک فیلتر شکافی[35] برای حذف فرکانس 50 هرتز برق شهری و یک فیلتر میان‌گذر باترورث مرتبه 1 با فرکانس پایین 15/0 و 45 هرتز بر روی دادگان اعمال شد [12-14]. با توجه به این موضوع که یکی از اهداف این پژوهش ارائۀ الگوریتمی مبتنی بر حداقل کانال‌های سیگنال‌های فیزیولوژیک است، طبق پژوهش‌های [8-10] فقط از کانال‌های Fp1، Fp2، F7، F3، Fz، F4، F8، T3، C3، C4، T4 و Pz در شبیه‌سازی استفاده شده است. شکل 5 کانال‌های انتخاب‌شده برای شبیه‌سازی را نشان می‌دهد.

 

شکل (5): کانال‌های انتخاب‌شده (خاکستری رنگ) در شبیه‌سازی.

 

در این کار، 2 سناریو مختلف در نظر گرفته شده است. در سناریو اول، 2 حالت هیجانی (مثبت و منفی) در نظر گرفته می‌شود. در سناریو اول، ابتدا برای هر الکترود، 5 دقیقه (300 ثانیه) از سیگنال برای حالت مثبت و حالت منفی انتخاب می‌شود؛ در این صورت 2 نوع داده با ابعاد 75000 (فرکانس نمونه‌برداری برابر 250 است) برای هر کلاس خواهیم داشت. سپس با تکنیک هم‌پوشانی (برای جلوگیری از پدیدۀ بیش‌برازش) داده‌های هر کانال به بازه‌های 8 ثانیه‌ای تقسیم می‌شوند. درواقع هر الکترود به طول 75000 (300 ثانیه) با شیفت زمانی 200 (8/0 ثانیه) با میزان هم‌پوشانی 90% به 360 نمونه به طول 2000 (8 ثانیه) تقسیم می‌شود؛ بنابراین، برای نمونه‌های e الکترود در نظر گرفته شده خواهیم داشت: . چون 7 فرد و 2 کلاس داریم، پس درنهایت ابعاد نمونه‌ها و ویژگی‌های اولیه برابر با  خواهد شد که  برابر است با تعداد الکترودها، 7 تعداد افراد و 2 تعداد کلاس‌ها است. همچنین، برای سناریو دوم 3 حالت (مثبت، خنثی و منفی) در نظر گرفته می‌شود. بدین‌ ترتیب، ابعاد ماتریس ورودی برای سناریو دوم برابر است با . این عملیات در شکل 6 نشان داده شده است.

 

3-2- معماری شبکۀ عمیق پیشنهادی

در معماری شبکۀ پیشنهادی از ترکیب 10 لایه کانولوشن یک‌بعدی و 3 لایه LSTM استفاده شده است. برای پیاده‌سازی شبکۀ کانولوشنال از کتابخانۀ کراس در زبان برنامه‌نویسی پایتون استفاه شده است. معماری شبکۀ عصبی عمیق پیشنهادی به‌صورت زیر انتخاب‌ شده است: 1) یک لایۀ حذف تصادفی؛ 2) یک ‌لایۀ کانولوشن با تابع غیرخطی LeakyRelu و یک‌لایه ادغام بیشینه همراه با نرمال‌ساز دسته‌ای اضافه می‌شود؛ 3) معماری مرحلۀ قبل، 9 بار دیگر تکرار می‌شود؛ 4) خروجی معماری قبلی به 3 لایۀ شبکۀ LSTM با توابع غیرخطی LeakyRelu متصل می‌شود که به‌صورت سری پشت سر یکدیگر قرار گرفته‌اند؛ 5) خروجی معماری قبلی به یک ماتریس دوبعدی متصل می‌شود؛ 6) دولایه تماماً متصل برای دسترسی به لایۀ خروجی استفاده می‌شود. شکل 7 جزئیات معماری شبکۀ عمیق پیشنهادی را نشان می‌دهد. جدول 3 جزئیات معماری شبکۀ کانولوشنال پیشنهادی به‌کاررفته را نشان می‌دهد. طبق جدول 3، کاهش بعد در لایه‌های پنهان از 24000 (12×2000) (تعداد ویژگی‌های اولیه) به 100 ادامه یافته است و درنهایت بردار ویژگی انتخاب‌شده به دولایه تماماً متصل با تابع غیرخطی Leaky Relu و Softmax متصل می‌شود.

 

 

 

شکل (6): عملیات هم‌پوشانی (اورلپ) روی سیگنال ثبت‌شده.

 

 

شکل (7): جزئیات شبکۀ عصبی عمیق پیشنهادی (CNN-LSTM).

 

For 2-scenarios

For 3-scenarios

شکل (8): تخصیص داده‌های سیگنال EEG مربوط به سناریو اول و دوم.

 

جدول (3): جزئیات معماری و سایز فیلتر‌های شبکۀ پیشنهادی.

padding

Number of filters and neurons

Strides

Size of Kernel and Pooling

Output Shape

Activation function

Layer type

L

yes

16

6×1

120×1

(None, 4000, 16)

Leaky ReLU

Convolution1-D

0-1

no

-

2×1

2×1

(None, 2000, 16)

-

Max-Pooling1-D

1-2

yes

32

1×1

3×1

(None, 2000, 32)

LeakyReLU

Convolution1-D

2-3

no

-

2×1

2×1

(None, 1000, 32)

-

Max-Pooling1-D

3-4

yes

64

1×1

3×1

(None, 1000, 64)

Leaky ReLU

Convolution1-D

4-5

no

-

2×1

2×1

(None, 500, 64)

-

Max-Pooling1-D

5-6

yes

80

1×1

3×1

(None, 500, 80)

Leaky ReLU

Convolution1-D

6-7

no

-

2×1

2×1

(None, 250, 80)

-

Max-Pooling1-D

7-8

yes

80

1×1

3×1

(None, 250, 80)

Leaky ReLU

Convolution1-D

8-9

no

-

2×1

2×1

(None, 125, 80)

-

Max-Pooling1-D

9-10

yes

80

1×1

3×1

(None, 125, 80)

Leaky ReLU

Convolution1-D

10-11

no

-

2×1

2×1

(None, 62, 80)

-

Max-Pooling1-D

11-12

yes

80

1×1

3×1

(None, 62, 80)

Leaky ReLU

Convolution1-D

12-13

no

-

2×1

2×1

(None, 31, 80)

-

Max-Pooling1-D

13-14

yes

80

1×1

3×1

(None, 31, 80)

Leaky ReLU

Convolution1-D

14-15

no

-

2×1

2×1

(None, 15, 80)

-

Max-Pooling1-D

15-16

yes

80

1×1

3×1

(None, 15, 80)

Leaky ReLU

Convolution1-D

16-17

no

-

2×1

2×1

(None, 7, 80)

-

Max-Pooling1-D

17-18

yes

80

1×1

3×1

(None, 7, 80)

Leaky ReLU

Convolution1-D

18-19

no

-

2×1

2×1

(None, 3, 80)

-

Max-Pooling1-D

19-20

-

128

-

-

(None, 128)

Leaky ReLU

LSTM

21-22

-

128

-

-

(None, 128)

Leaky ReLU

LSTM

22-23

-

128

-

-

(None, 128)

Leaky ReLU

LSTM

23-24

-

100

-

-

(None, 100)

Leaky ReLU

Fully-connected

24-25

-

2-3

-

-

(None, 2-3)

Softmax

Fully-connected

25-26

                 

 

 

3-3- آموزش شبکۀ عمیق پیشنهادی

در این پژوهش، همۀ ابر پارامترهای شبکۀ پیشنهادی CNN-LSTM به‌دقت تنظیم شده‌اند تا بهترین نرخ همگرایی را به ‌دست آورند و درنهایت، تابع هدف کراس آنتروپی[36] و بهینه‌ساز Rmsprop با نرخ یادگیری 001/0 انتخاب شده‌اند. روش مرسوم پس انتشار خطا با اندازۀ دسته‌ای 10 برای آموزش شبکه استفاده شده است. تعداد کل نمونه‌ها در این کار برای سناریو اول و دوم به‌ترتیب 5040 و 7560 است؛ از این تعداد 60% داده‌ها به‌طور تصادفی برای آموزش شبکه (3024 برای سناریو اول و 4536 برای سناریو دوم) و 40% باقی‌مانده (2016 برای سناریو اول و 3024 برای سناریو دوم) به‌عنوان مجموعۀ آزمون انتخاب می‌شوند. همچنین، برای مجموعۀ آموزش 10% از داده‌ها برای مجموعۀ اعتبارسنجی استفاده می‌شود. شکل 8، تخصیص داده‌های EEG را برای مجموعۀ آموزش و آزمون برای سناریو اول و دوم نشان می‌دهد.

 

4- نتایج و بحث

در این بخش، نتایج شبیه‌سازی شبکۀ عمیق پیشنهادی برای تشخیص خودکار هیجانات از سیگنال‌های EEG ارائه شده‌اند. شکل 9 نمودار خطا را برای سناریو اول و دوم نشان می‌دهد. طبق شکل 9 خطای شبکه برای سناریو اول با افزایش تکرار الگوریتم و در تکرار 130ام تقریبا به حالت پایدار رسیده است. همچنین، با توجه به شکل 9، نمودار خطا برای سناریو دوم نیز در تکرار 145ام تقریبا ثابت شده است. شکل 10 صحت روش پیشنهادی را برای سناریو اول و دوم در 400 تکرار نشان می‌دهد. برای سناریو اول و دوم از شکل 10 مشاهده می‌شود عملکرد روش پیشنهادی برای طبقه‌بندی هیجانات پس از 200 تکرار به‌ترتیب به صحت 42/97% و 23/95% می‌رسد. شکل 11 ماتریس درهم‌ریختگی را برای سناریو اول و دوم نشان می‌دهد. مطابق شکل 11، عملکرد شبکۀ عمیق پیشنهادی بسیار امیدوارکننده است. شکل 12 نمودار بار (شامل دقت، حساسیت، صحت و اختصاصیت) را برای سناریو اول و دوم نشان می‌دهد. شکل 13 نمودار پراکندگی در لایه‌های مختلف کانولوشن را برای سناریو اول و دوم نشان می‌دهد. با توجه به نمودار پراکندگی شکل 13، معماری پیشنهادی برای طبقه‌بندی داده‌ها بسیار کارآمد بوده است. همچنین، برای نشان‌دادن عملکرد مطلوب الگوریتم پیشنهادی برای طبقه‌بندی، سناریو دوم (مثبت، خنثی و منفی) با سایر روش‌های رایج ازجمله CNN، DBM و MLP مقایسه شد. برای شبکۀ CNN معماری شبکۀ پیشنهادی در جدول 3 بدون در نظر گرفتن شبکه‌های LSTM به ‌کار گرفته شد. برای شبکۀ DBM و MLP تعداد لایه‌های پنهان 3 و نرخ یادگیری 001/0 در نظر گرفته شد. شکل 14 عملکرد روش پیشنهادی (CNN-LSTM) را در مقایسه با شبکه‌های CNN، DBM و MLP برای سناریو دوم نشان می‌دهد.

 

 

 

(الف)

(ب)

شکل (9): نمودار خطا برای الف. سناریو اول (هیجان مثبت و منفی) و ب. سناریو دوم (هیجان مثبت، خنثی و منفی).

 

(الف)

(ب)

80

50

70

90

60

 

شکل (10): نمودار صحت برای الف. سناریو اول (هیجان مثبت و منفی) و ب. سناریو دوم (هیجان مثبت، خنثی و منفی).

 

 

(ب)

 

(الف)

شکل (11): ماتریس درهم‌ریختگی برای الف. سناریو اول (هیجان مثبت و منفی) و ب. سناریو دوم (هیجان مثبت، خنثی و منفی).

 

 

شکل (12): نمودار میله‌ای (شامل صحت، حساسیت، اختصاصیت و دقت) برای سناریو اول و سناریو دوم.

 

     
     

شکل (13): نمودار t-SEN برای لایه‌های مختلف کانولوشن برای الف. سناریو اول و ب. سناریو دوم.

 

 

شکل (14): عملکرد شبکۀ عمیق پیشنهادی (CNN-LSTM) در مقایسه با شبکه‌های CNN، DBMو MLPبرای سناریو دوم.

 

جدول (4): پیچیدگی محاسباتی برای الگوریتم پیشنهادی در مقایسه با 3 روش دیگر.

 

P-M (LSTM-CNN)

CNN

DBM

MLP

Class

Train

Test

Train

Test

Train

Test

Train

Test

2-Stages

5400 s

5 s

5002 s

3 s

3011 s

4.5 s

909 s

2.5 s

3-Stages

12600 s

6 s

11200 s

3.5 s

6009 s

4.5 s

1201 s

2 s

 

 

شکل (15): مقایسۀ صحت شبکۀ عمیق پیشنهادی در مقایسه با روش‌های دیگر در محیط نویزی.

 

 

مطابق شکل 14، صحت حاصل‌شده برای 3 شبکۀ مقایسه‌شده برای طبقه‌بندی به‌ترتیب 90%، 79% و 73% است. مطابق شکل 14، معماری الگوریتم پیشنهادی براساس شبکه‌های CNN-LSTM در طبقه‌بندی مراحل هیجانات مثبت، خنثی و منفی بسیار کارآمد بوده است. همچنین، پیچیدگی محاسباتی برای الگوریتم پیشنهادی (CNN-LSTM)، CNN، DBM و MLP در جدول 4 نمایش داده شده است. مطابق جدول 4، الگوریتم پیشنهادی دارای پیچیدگی محاسباتی بیشتری در مقایسه با 3 روش دیگر است و در مقابل دارای بیشترین صحت برای سناریو اول و دوم است. جدول 5 مقادیر کاپاکوهن حاصل‌شده برای هر دو سناریو را به‌منظور تأیید صحت‌های حاصل‌شده نشان می‌دهد. در مطالعات قبلی از روش‌های متداول مانند تبدیل موجک[xxxvii] (WT)، تجزیۀ حالت تجربی[xxxviii] (EMD) و غیره برای استخراج و انتخاب ویژگی‌های مهم سیگنال استفاده شده که شامل برخی از مشکلات رایج در رابطه با پارامترهای روش انتخاب و استخراج ویژگی مانند انتخاب نوع موجک مادر، تعداد سطوح تجزیه و غیره است. روش پیشنهادی بدون استفاده از روش‌های معمول طبقه‌بندی، به حذف بلوک انتخاب ویژگی منجر می‌شود و بدون استفاده از الگوریتم‌های استخراج ویژگی‌ متداول، به‌طور مستقیم از روی خود سیگنال EEG به تشخیص هیجانات می‌پردازد.

 

جدول (5): مقادیر کاپاکوهن برای سناریو اول و دوم.

Class

2-stages

3-stages

Kappa

0.96

0.93

 

به‌منظور ارزیابی عملکرد الگوریتم پیشنهادی در سناریوهای نویزآلود، نویز گوسی سفید با SNR 4- تا 20 دسی‌بل به سیگنال‌های EEG ثبت‌شده اضافه شد و صحت طبقه‌بندی سناریو دوم در هر طیف در مقایسه با روش‌های مقایسه‌شده در شکل 15 بررسی شد. نتایج حاصل‌شده در شکل 15 نمایش داده شده‌‌اند. با توجه به شکل 15، عملکرد طبقه‌بندی الگوریتم پیشنهادی به‌طور چشمگیری نسبت به نویز در طیف گسترده‌ای از SNR نسبت به روش‌های مقایسه‌شده مقاوم است.

 

5- نتیجه‌گیری

با توجه به مطالب بخش اول، چالش عمده در بازشناسی هیجانات، انتخاب ویژگی‌ متمایزکنندۀ هیجانات از یکدیگر بود که ادغام آن با روش‌های مختلف طبقه‌بندی به پدیدآمدن نتایج مختلف و متفاوت منجر شده بود. روش پیشنهادی این مقاله بدون استفاده از روش‌های عمدتاً پیچیدۀ طبقه‌بندی، به حذف بلوک انتخاب ویژگی منجر شده و بدون استخراج ویژگی‌های متداول، به‌طور مستقیم از روی خود سیگنال EEG موفق به بازشناسی 2 سناریو مختلف با صحت بالای 90% شده است. در این پژوهش، ویژگی‌ها به‌صورت سلسله‌مراتبی با استفاده از 7 لایه کانولوشن، 3 لایه LSTM و 2 لایۀ تماماً متصل استخراج شدند. نتایج نشان دادند مدل پیشنهادی، ویژگی‌هایی را انتخاب می‌کند که بیشترین تمایز را در بین کلاس‌ها ایجاد می‌کند. با توجه به بالابودن صحت الگوریتم، می‌توان از آن در کاربرد‌های سیستم‌های BCI استفاده نمود.



[1] تاریخ ارسال مقاله: 09/01/1399

تاریخ پذیرش مقاله: 09/10/1399

نام نویسندۀ مسئول: توحید یوسفی رضایی

نشانی نویسندۀ مسئول::  ایران- تبریز - دانشگاه تبریز– دانشکده مهندسی برق و کامپیوتر



[1] Emotions

[2] Functional Magnetic Resonance Imaging (fMRI)

[3] Electroencephalography (EEG(

[4] Near-Infrared Spectroscopy (NIRS)

[5] Brain-Computer Interface (BCI)

[6] Pleasant

[7] Neutral

[8] Unpleasantness

[9] Fast Fourier Transform (FFT)

[10] Support Vector Machine (SVM)

[11] Relaxation

[12] Linear Regression

[13] Fuzzy Clustering

[14] International Affective Picture system (IAPS)

[15] Self-Assessment Manikin (SAM)

[16] Quadratic Discriminant Analysis (QDA)

[17] Deep Learning Network (DLN)

[18] Principal Component Analysis (PCA)

[19] آزمون خودارزیابی تصاویر آدمـک (SAM) نمایش تصویری از ابعاد سه‌گانۀ است کـه لانگ به‌عنوان جایگزینی بـرای مقیاس‌های خـودگزارش‌دهی ابداع کرد. نمـایش‌هـای آن در هر بعد با یک ویژگی تصویری در یک مقیاس 9 درجه‌ای است که پاسخ‌دهنده می‌تواند آنچـه را احســاس می‌کند، انتخــاب کند. SAM از شکل‌های آدمک در یک مقیـاس بـرای هـر یـک از ابعاد عاطفی اسـتفاده می‌کند. از SAM بـه‌عنوان یک مقیاس کاربردی تصویری برای سـنجش ابعاد هیجان مثبت، منفی و خنثی استفاده می‌شود.

[20] Beck Depression Inventory

[21] Electrooculography (EOG)

[22] Feedforward

[23] Back Propagation

[24] Loss Function

[25] Pooling Layer

[26] Fully Connected

[27] Over Fitting

[28] Dropout

[29] Batch Normalization

[30] Down Sampling

[31] Max-Pooling

[32] Softmax

[33] Long Short Term Memory (LSTM)

[34] Recurrent Neural Network (RNN)

[35] Notch Filter

[36] Cross Entropy

[xxxvii] Wavelet Transform

[xxxviii] Empirical Mode Decomposition

 

[1] S. Sanei and J. A. Chambers, EEG signal processing. John Wiley & Sons, 2013.
[2] S. Sanei, "Adaptive processing of brain signals. 2013," ed: John Wiley & Sons.
[3] K. R. Scherer, "What are emotions? And how can they be measured?," Social science information, Vol. 44, No. 4, pp. 695-729, 2005.
[4] K. Schaaff and T. Schultz, "Towards emotion recognition from electroencephalographic signals," in Affective Computing and Intelligent Interaction and Workshops, 2009. ACII 2009. 3rd International Conference on, 2009, pp. 1-6: IEEE.
[5] M. Murugappan, M. Rizon, R. Nagarajan, S. Yaacob, I. Zunaidi, and D. Hazry, "EEG feature extraction for classifying emotions using FCM and FKM," International journal of Computers and Communications, Vol. 1, No. 2, pp. 21-25, 2007.
[6 R. Jenke, A. Peer, and M. Buss, "Feature extraction and selection for emotion recognition from EEG," IEEE Transactions on Affective Computing, Vol. 5, No. 3, pp. 327-339, 2014.
[7] S. Jirayucharoensak, S. Pan-Ngum, and P. Israsena, "EEG-based emotion recognition using deep learning network with principal component based covariate shift adaptation," The Scientific World Journal, Vol. 2014, 2014.
[8] X.-W. Wang, D. Nie, and B.-L. Lu, "Emotional state classification from EEG data using machine learning approach," Neurocomputing, Vol. 129, pp. 94-106, 2014.
[9] F. Hasanzadeh, M. Annabestani, and S. Moghimi, "Continuous Emotion Recognition during Music Listening Using EEG Signals: A Fuzzy Parallel Cascades Model," arXiv preprint arXiv: 1910.10489, 2019.
[10] Y. Hou and S. Chen, "Distinguishing Different Emotions Evoked by Music via Electroence phalographic Signals," Computational intelligence and neuroscience, vol. 2019, 2019.
[11] P. Keelawat, N. Thammasan, M. Numao, and B. Kijsirikul, "Spatiotemporal Emotion Recognition using Deep CNN Based on EEG during Music Listening," arXiv preprint arXiv:1910.09719, 2019.
[12] Y. Yang, Q. Wu, M. Qiu, Y. Wang, and X. Chen, ‘‘Emotion recognition from multi-channel EEG through parallel convolutional recurrent neural network,’’ in Proc. Int. Joint Conf. Neural Netw. (IJCNN), pp. 1–7, Jul. 2018.
[13] H. Yang, J. Han, and K. Min, ‘‘A multi-column CNN model for emotion recognition from EEG signals,’’ Sensors, Vol. 19, No. 21, p. 4736, Oct, 2019
[14] J. Chen, D. Jiang, Y. Zhang, and P. Zhang,‘‘Emotion recognition from spatiotemporal EEG representations with hybrid convolutional recurrent neural networks via wearable multi-channel headset,’’ Comput. Commun, Vol. 154, pp. 58–65, Mar. 2020.
[15] Mohammadizadeh. A, Applications of music therapy in the fields of psychiatry, medicine and psychology, including music and mysticism, classification of music themes, Classification of music themes, music therapy and global unity. ‌ Tehran: Secrets of Knowledge, Vol. 104, pp. 10–20, Mar. 2005.
[16] Goodfellow. I., Bengio. Y., Courville. A., 2016. Deep Learning. MIT Press, http://www.deeplearningbook.org.
[17] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. R. Salakhutdinov, "Improving neural networks by preventing co-adaptation of feature detectors," arXiv preprint arXiv:1207.0580, 2012.
[18] S. Ioffe and C. Szegedy, "Batch normalization: Accelerating deep network training by reducing internal covariate shift," arXiv preprint arXiv:1502.03167, 2015.
[19] N. Siddique and H. Adeli, Computational intelligence: synergies of fuzzy logic, neural networks and evolutionary computing. John Wiley & Sons, 2013.
[20] Z. Mousavi,., et al. "Deep convolutional neural network for classification of sleep stages from single-channel EEG signals." Journal of neuroscience methods 108-312. 2019.
[21] S. Hochreiter and J. Schmidhuber, "Long short-term memory," Neural computation, Vol. 9, No. 8, pp. 1735-1780, 1997.