Document Type : Research Article
Authors
1 1 Department of Biomedical Engineering, Shahed University, Tehran, Iran
2 Department of Biomedical Engineering, Shahed University, Tehran, Iran
Abstract
Keywords
EEGیکی از مهمترین و رایجترین مراجع برای مطالعه عملکرد مغز واختلالات نورولوژیک است. به همین دلیل، سیستمهای خودکار برای تشخیص تغییرات EEG برای سالهای متوالی تحت مطالعه هستند. پردازش اتوماتیک میتواند به سه بخش پردازشگر مستقل تقسیم شود: پیش پردازش، استخراج یا انتخاب ویژگی و طبقهبندی. استفاده از سیگنال و یا تصویر، میانگین گیری، حذف نویز، گذاشتن حدآستانه، پیدا کردن لبه و بهبود کیفیت سیگنال یا تصویر، عملیات عمده در قسمت پیش پردازش هستند. ویژگیها به وسیله بخش استخراج ویژگی به دست میآیند[1]. بخش انتخاب ویژگی یک مرحله اختیاری است، که به وسیله آن فقط اندازه بردار ویژگی کوچک می شود و بخش طبقه بندی کننده آخرین مرحله در تشخیص اتوماتیک است [2و3].
روشهای استخراج ویژگی به دو زیر گروه تقسیم میشود :1) مشخصه های آماری و 2)توصیفات بیان کننده داده ها.
روشهای مبتنی بر بردارهای ویژه،به عنوان یک روش استخراج ویژگی ،برای تخمین فرکانس و توان سیگنال از اندازه گیریهای آغشته به نویز استفاده می شوند. این روشها بر پایه تجزیه ماتریس کوریلیشن سیگنال آغشته به نویز هستند. حتی وقتی نسبت سیگنال به نویز (SNR)پایین باشد، روشهای مبتنی بر بردارهای ویژه یک طیف فرکانسی با رزولوشن بالا تولید میکنند. در این مطالعه، سه روش مبتنی بر بردارهای ویژه (PISARENKO ,MUSIC ,MINIMUM NORM) برای تولید تخمین طیف چگالی توان[1] (PSD) انتخاب شد.مدل پیشنهادی در این مقاله از سه ماژول اصلی تشکیل شده است: 1) استخراج کننده ویژگی که بردار ویژگی را از سیگنال EEG تولید میکند؛ 2) انتخاب کننده ویژگی و3) طبقهبندی کننده که داده های ورودی را به کلاسهای مجزا طبقه بندی میکند] 5و4[.
سیگنال EEG تحت مطالعه شامل پنج دسته است: 1) سیگنال سطحی ثبت شده از داوطلبان سالم با چشم های باز؛ 2) سیگنال سطحی ثبت شده از داوطلبان سالم با چشمهای بسته؛ 3) سیگنال ثبت شده عمقی از بیماران صرعی در طول وقفه های بین حملات صرع از درون ناحیه ای که حمله را ایجاد می کند؛ 4) سیگنال ثبت شده عمقی از بیماران صرعی در طول وقفه های بین حملات صرع از بیرون ناحیه ای که حمله را ایجاد می کند و 5) ثبت عمقی حملات صرعی است .
در این مقاله، شبکه پیشنهادی ME برای آموزش و جداسازی دادگان انتخاب شده است . از طرفی، با توجه به روش اعتبار سنجی[2] برای انجام اعتبارسنجی، داده ها به 70-20-10 تقسیمبندی شده اند، به این ترتیب که 70% آنها برای آموزش، 20% برای تست و 10% برای اعتبارسنجی استفاده شده اند. این امر باعث می شود شبکه آموزش بهتری ببیند و همچنین، شبکه از over fit شدن مصون بماند. در واقع، از این طریق صحت آزمون افزایش می یابد که این امر در حالت عدم حفظ کردن دادگان رخ داده ، و توانمندی بهتر آموزش در شبکه را نشان می دهد.
1- انتخاب داده
الگوریتم ارائه شده بر روی مجموعه داده های موجود در پایگاه (http://epileptologie-bonn.de/cms/front_content.php?idcat=193&lang=3&changelang=3) ارزیابی شده است .
به غیر از الکترودهای مختلف ثبت برای EEG بیرونی و درونی، همه پارامترهای دیگر ثبت ثابت بودند.
پنج دسته(A تا E) هر کدام شامل 100 سیگنال تک کاناله با طول 26.3 ثانیه در این مطالعه استفاده شد.این سیگنالها از ثبتهای دنباله دار EEG انتخاب و بریده شدند.دسته A و B ترکیبی از سیگنال گرفته شده از ثبتهای EEG سطحی است که بر روی پنج نفر داوطلب سالم با استفاده از جاگذاری استاندارد الکترود (طرح محل الکترودهای سطحی مربوط به سیستم جهانی10-20) انجام شده بود.داوطلبان در حالت آرام و بیدار با چشمان باز (A) و چشمان بسته (B) بودند. دسته CوDوE از آرشیو تشخیص قبل از عمل به دست آمده.EEG پنچ بیمار انتخاب شده که ناحیه صرعی[3] همه آنها مشخص بود. سیگنال دسته D از داخل ناحیه صرعی3 ثبت شده است و دسته C از ناحیه هیپوکامپ[4] از نیمکره مقابل ثبت شده، دسته C و D از وقفه های حمله گرفته شده، در حالی که دسته E فقط شامل فعالیت حمله صرع است.
همه سیگنال های EEG با سیستم 128 کاناله و با ولتاژ میانگین مشترک ثبت شدند. پس از تبدیل 12 بیتی آنالوگ به دیجیتال، داده در دیسک ذخیره سازی داده به صورت پیوسته با نرخ نمونه برداری 173.61 هرتز نوشته شدند .
2- روشهای بردار ویژه برای آنالیز طیفی
روش پیسارنکو[5] که در سال 1973 بیان شد، مخصوصا برای تخمین PSD هایی که شامل پیک های تیز در فرکانسهای مورد انتظار هستند، مفید است. چند جملهای A(f) که صفرهای آن در دایره واحد است، میتواند برای تخمین PSD استفاده شود[1]:
(1) |
که در آن A(f) خروجی مطلوب چند جملهای است، ضرایب چند جملهای و m ترتیب فیلترهای ویژه را نشان میدهد. چند جملهای به صورت ماتریس اتوکوریلیشن سیگنال ورودی نیز میتواند نشان داده شود.فرض کنید که نویز، سفید باشد[1]:
(2) |
که x(n)سیگنال مورد نظر، S بیان کننده ماتریس جهت سیگنال با ابعاد (m+1)×Lو L بعد زیر فضای سیگنال است، R ماتریس اتوکوریلیشن با ابعاد (m+1)×(m+1) است،p ماتریس توان سیگنال با ابعاد L×L است، بیان کننده توان نویز، * بیان کننده complex conjugate ، I ماتریس یکه ، # بیان کننده complex conjugate transpose،و T بیان کننده ترانهاده است. S، ماتریس جهت سیگنال،به صورت زیر بیان میشود: که w1,w2,..wL بیان کننده فرکانسهای سیگنال اند:
در طرح های عملی متداول است که تخمین ماتریس اتوکوریلیشن را از دستور زیر محاسبه کنند:
پس با استفاده از این فرمول ماتریس اتوکوریلیشن(R) تولید می شود.
اگر a یک بردار ویژه ماتریس R باشد، معادله 2 میتواند به صورت زیر بیان شود:
(4) |
که a به صورت [a0; a1;…..;am] است.
روش پیسارنکو فقط بردار ویژه مربوط به مقدار ویژه مینیمم را برای ساختن چند جملهای (1) استفاده می کند و طیف را محاسبه می نماید.
بنابراین، روش پیسارنکو ، a را طوری مییابد که شود .پس بردار ویژه a می تواند این گونه فرض شود که به زیر فضای نویز کشیده شده و معادله (4) به حالت زیر خلاصه میشود:
(5) |
با این محدودیت که در جایی که توان نویز است، که در روش پیسارنکو5 همان مقدار ویژه مینیمم مربوط به بردار ویژه a است.
در اصل، با فرض سفید بودن نویز، مقدار ویژه همه زیر فضاهای نویزی باید با هم برابر باشند[1]:
(6) |
که iλ مقادیر ویژه زیر فضاهای نویزی را بیان میکند و i=1,2,…k و k بیان کننده بعد زیر فضای نویزی است[1].
روش پیسارنکو5 از بردار مربوط به مقدار ویژه مینیمم، PSD را از خروجی مطلوب چند جمله ای تعیین میکند[1]:
(7) |
3-2- روش MUSIC
روش MUSIC یکی از تخمینگرهای فرکانسی زیر فضاهای نویزی است که توسط Schmidt (1986) ارائه شد و اثر صفرهای کاذب[6] را با میانگینگیری روی همه طیفهای بردارهای ویژه مربوط به زیر فضاهای نویزی از بین میبرد.حاصل PSD به دست آمده توسط این روش به صورت زیر بیان می شود[1]:
(8) |
کهk بعد زیر فضای نویزی را تعیین می کند، و خروجی مطلوب چند جمله ای مربوط به همه بردارهای ویژه را تعیین میکند[1].
علاوه بر روش های Pisarenko و MUSIC روش مینیمم نرم هم برای جداسازی صفرهای کاذب از صفرهای حقیقی پیاده شد. PSD از روش مینیمم نرم می تواند این گونه تخمین زده شود[1]:
(9) |
که k بعد زیرفضای نویزی را نشان می دهد[1].
3-3-1-پیاده سازی روش مینیمم نرم
در روش مینیمم نرم هم ابتدا باید از از معیارMinimum Description Length(MDL)، تعداد زیر فضای نویزی پیدا شود که معیار MDLبه صورت زیر تعریف شده]2[:
(10) |
که m ماکزیمم تعداد تاخیر در ماتریس اتوکوریلیشن (همان ترتیب بردارهای ویژه) را نشان میدهد، N تعداد نمونههای سیگنال، و تابع likelihood است که به صورت مقابل تعریف می شود:
(11) |
وk تعداد زیر فضای نویزی است که با مینیمم کردن معیار MDL به دست میآید.همان طور که از فرمول ها پیداست، k از روش سعی و خطا به دست میآید.
3- بیان مدل شبکه عصبی
ساختار MEنوشته شده با شبکه ورودی وچندین شبکه خبره در (شکل 1) نشان داده شده است.شبکه ورودی بردار xرا به عنوان ورودی میگیرد و خروجی های اسکالری تولید میکند که هر یک کسری از واحدند [1].
هر یک از شبکه های خبره به ازای بردار ورودی یک بردار خروجی تولید میکند. شبکه ورودی تولید ضرایب ترکیب خطی برای ترکیب خروجی های شبکه های خبره را به عهده دارد، بنابراین، خروجی نهایی ساختار ME یک مجموع وزن دار همگرا از همه بردارهای خروجی تولید شده توسط شبکههای خبره است. فرض کنید تعداد N شبکه خبره در ساختار MEوجود دارد. شبکه های خبره به کار رفته همگی خطی هستند و تنها دارای یک تابع غیر خطی در خروجی هستند که با وجود این میتوان ازآن به عنوان'' خطی تعمیم یافته"یاد کرد.شبکه خبره iام که خروجی خودش را به صورت یک تابع خطی تعمیم یافته از ورودیx تولید میکند، به این صورت تعریف میشود[1]:
(12) |
O(x) |
Gating Network |
Expert Network 1 |
Expert network N |
x |
x |
x |
شکل (1)- ساختار ME
که در آن Wi ماتریس وزن وf(.) یک تابع پیوسته غیر خطی مشخص است.
شبکه ورودی نیز یک تابع تعمیم یافته خطی است و خروجی iام آن ،(g(x,vi))، یک چند جملهای logit یاتابعsoft maxاز متغیر های میانی است.
(13) |
که در آن zi=viTx وviها بردارهای وزن هستند.
خروجی کلی ساختار ME به شکل زیر است:
(14) |
ساختار ME می تواند یک تفسیر احتمالاتی داشته باشد. برای جفت ورودی- خروجی( (x,y، مقادیرg(x,vi) را می توان به عنوان یک احتمال چند جملهای فرض کرد که بیانگر احتمال تصمیمی باشد که با یک پروسه برگشتی x را بهy نگاشت می کند. ابتدا باید تصمیم گرفته شود، که موجب انتخاب پروسه برگشتی iام میشود، سپس خروجیy از چگالی احتمال p(y-x,Wi)انتخاب می شود، Wiهمان ماتریس وزن ازi امین شبکه خبره در مدل است، بنابراین، احتمال کلی ساختن yاز xترکیبی از احتمالات ساختن yاز هر جزء چگالیهاست[1]:
(15) |
که در آن دستهای از همه پارامتر هاست که شامل پارامترهای شبکههای خبره و شبکه ورودی است. بر پایه مدل احتمالی،آموزش در ساختار MEمثل مسأله max likelihood رفتار میکند. Jordan و Jacobالگوریتم ماکزیمم کردن تابع EM را برای تعیین پارامترهای ساختار پیشنهاد میکنند. در این کار تعدادی شبکه خبره وابسته به هم میتوانند با هم به شبکه ورودی برای تقسیم کردن مسأله طبقهبندی کلی به زیر مسألههای ساده تر استفاده شوند.
4-1-1-پیاده سازی ساختار ME
4-1-1-1-ویژگیها
در این مرحله ابتدا چهار ویژگی از هر یک از طیفهای به دست آمده از هر سه روش را انتخاب شده اند. این چهار ویژگی عبارتند از: ماکزیمم، مینیمم، انحراف معیار و میانگین از طیف توان برای هر پنجره 256 تایی از سیگنال.به این ترتیب دوازده ویژگی برای هر پنجره 256 تایی پیدا میشود که این دوازده ویژگی ورودی شبکه عصبی هستند[1].
4-1-1-2- ساختار
این ساختار در واقع مجموعه ای از شبکه های عصبی است که وزن های این شبکه ها توسط قوانین احتمالی به روز میشوند]4[. در این ساختار دو قسمت مهم دیده میشود که مربوط به دو سری از شبکه هاست.یک سری از شبکه ها در این ساختار خبره نامگذاری شدند و یک شبکه به نام شبکه ورودی وجود دارد]6[.مطلب مهم دیگری که در این ساختار باید به آن اشاره کرد، ورودی شبکههای این ساختار است که به صورت ویژگی های مرکب است(در کار حاضر دوازده ویژگی که هر چهار ویژگی مربوط به یک روش خاص است). ابتدا یک سری شبکه(خبرگان) بردار ورودی را میگیرند و هر کدام یک بردار خروجی تولید میکنند. شبکه ورودی هم بردار ورودی را میگیرد و یک بردار خروجی تولید میکند که هر کدام از اجزای بردار خروجی شبکه ورودی به یکی از شبکه های خبره میرود. به این صورت خروجی شبکههای خبره وزن دار میشوند و در نهایت خروجی کلی سیستم، جمع وزن دار همه خروجیهای شبکه های خبره است]7-15[ .
در مرجع [1] ساختار استفاده شده برای شبکه های خبره و ورودی 12-20-5 است، در حالی که در روش پیشنهادی پس از بررسی تعدادی از انواع ساختار های معمول شبکه عصبی مصنوعی ، بهترین شبکه منتجه که یک شبکه ورودی با ساختار 12-50-5 و شبکههای خبره با ساختار 12-25-5 است، انتخاب گردید. همچنین، تفاوت دیگر روش پیشنهادی نسبت به روش استفاده شده در مرجع 1 تقسیم بندی تعداد مشاهدات برای دو مرحله آموزش و تست است؛ به این ترتیب که مرجع 1 تعداد دادگان مساوی را برای مرحله آموزش و تست در نظر گرفته است، در حالی که در این مقاله با توجه به روش اعتبار سنجی[7] برای انجام اعتبارسنجی، داده ها به 70-20-10 تقسیمبندی شدهاند؛ به این ترتیب که % 70 آنها برای آموزش ، %20 برای تست و %10 برای اعتبارسنجی استفاده شده اند. این امر باعث می شود شبکه آموزش بهتری ببیند و همچنین، شبکه از حفظ کردن[8] مصون می ماند. برای اجرای ساختار فوق ابتدا باید:
برای هر جفت داده (منظور ورودی شبکه که خود دارای دوازه بعد و خروجی که پنج تایی است) احتمال پیشین را محاسبه کرده که نیازمند پیاده سازی فرمول (16)است :
(16) |
و همچنین باید احتمال شرطی پیاده شود که به این منظور باید تابع توزیع احتمال موجود باشد. لذا در بررسی های انجام شده روی منابع ذکر شده تصمیم بر استفاده از احتمال چند جمله ای مطابق الگوی رفتاری به کار رفته در مراجع]6-8 [، شده است.
1- برای هر شبکه خبره مسألهIRLS که یک اپتیمم یاب است، پیاده شده ( به این ترتیب وزن های update شده را میتوان محاسبه کرد)، یاد آور می شود مسأله فوق برای هر شبکه با مشاهده xوy و وزن h باید پیاده شود]9[.
2- برای شبکه gating (شبکه ورودی) مسأله IRLS با مشاهده xو h انجام شده است ]9[.
3- مراحل بالا تا حدی تکرار شود که به جواب مطلوب منجر شود ]9[.
در نهایت، برای محاسبه خطا از حد آستانه با مقدار05/0، استفاده شده است و شرط ورود به مرحله تست به دست آوردن حداقل صحت 95% است. نتایج به دست آمده در جدول 1 نشان داده شده است. شبکه MLP استفاده شده در شبکه ورودی دارای سه لایه پیشخور است که با استفاده از الگوریتم پس انتشار خطا با نرخ یادگیری متغییر آموزش داده می شود]16،17[.
تعداد نورون های لایه اول برابر با تعداد ویژگی ها (12نورون) در نظر گرفته شده و لایه خروجی شامل 5 نورون است که مقادیری بین 0و1 اختیار می کنند. با تغییر تعداد نورون های لایه میانی، سعی در بهینه سازی معماری شبکه عصبی گردیده است. و سر انجام، یک شبکه عصبی سه لایه دارای50 نورون در لایه پنهان با تابع فعالیت سیگموئید استاندارد، انتخاب شده است. آموزش شبکه تا زمانی که مربع خطا کمتر از 0.01 شود یا تعداد تکرار های آموزش به 1000 برسد، ادامه می یابد. به همین ترتیب، ساختار 12-25-5 برای شبکه های خبره انتخاب شده است که بر قدرت بیشتر شبکه ورودی(که در واقع نقش انتخاب گری است) دلالت دارد. این مسأله به همراه تغییر تعداد دادههای گروههای تست و آموزش(نسبت به[1]) به منظور آموزش بهتر و همچنین، استفاده از اعتبار سنجی7 برای جلوگیری ازحفظ کردن دادگان8، باعث ارتقای صحت طبقه بندی کننده شده است .
با توجه به نتایج به دست آمده به نظر می رسد ساختار پیشنهادی توانمندی به مراتب بیشتری در طبقه بندی سیگنالهای EEG نسبت به ساختار ارائه شده در مرجع [1] دارد .
با استفاده از تخمین فرکانس تولید شده به وسیله این روشها سطوح توان سیگنال میتوانند از روی ماتریس توان بیان شوند. یک پنجره مستطیلی 256 تایی از داده برای ایستا فرض شدن سیگنال در وقفه ها استفاده شده است.برای هر قسمت، 129نقطه از لگاریتم سطح توان PSDمحاسبه شد. ابعاد بزرگ بردار ویژگی، پیچیدگی محاسباتی را افزایش میداد و بنابراین، برای کاهش بعد بردارویژگی استخراج شده(انتخاب ویژگی) ،مشخصه هایی پیرامون PSD استفاده شد. ویژگیهای آماری زیر برای کاهش بعد بردارهای ویژگی مذکور استفاده شده است: 1)ماکزیمم سطوح توان در PSD به روش پیسارنکو برای هر قسمت از EEG، ماکزیمم سطوح توان در PSD به روشMUSIC برای هر قسمت از EEG، ماکزیمم سطوح توان در PSD به روش مینیمم نرم برای هر قسمت از EEG.
2)مینیمم سطوح توان در PSD به روش پیسارنکو برای هر قسمت از EEG، مینیمم سطوح توان در PSD به روشMUSIC برای هر قسمت از EEG، مینیمم سطوح توان در PSD به روش مینیمم نُرم برای هر قسمت از EEG.
3)میانگین سطوح توان در PSD به روش پیسارنکو برای هر قسمت از EEG، مینیمم سطوح توان در PSD به روشMUSIC برای هر قسمت از EEG، مینیمم سطوح توان در PSD به روش مینیمم نرم برای هر قسمت از EEG.
4)انحراف معیار سطوح توان در PSD به روش Pisarenko برای هر قسمت از EEG، مینیمم سطوح توان در PSD به روشMUSIC برای هر قسمت از EEG، مینیمم سطوح توان در PSD به روش مینیمم نُرم برای هر قسمت از EEG.
جدول (1) : نتایج صحت ساختار ME
واریانس(در 10 بار از اجرای شبکه) |
میانگین(در 10 بار از اجرای شبکه) |
نتایج بدست آمده از طبقه بندی کننده ME در ساختار پیشنهادی |
|||||
0911/0 |
4966/99 |
8750/99 |
9375/99 |
8125/99 |
2500/99 |
7500/99 |
درصد صحت آموزش |
0082/0 |
5071/99 |
5357/99 |
4285/99 |
3928/99 |
3750/99 |
2857/99 |
درصد صحت تست |
در این مطالعه، ساختار ME برای کلاس بندی سیگنال EEG استفاده شده است. در این مطالعه 100 سیگنال دارای 4096 نمونه برای هر کلاس با پنجره مستطیلی از 256 داده ای تقسیم شدند و سپس داده ها به فرم 8000 بردار (1600بردار برای هر کلاس) تبدیل شدند.
نکته قابل توجه این است که با وجود استفاده از اعتبار سنجی[ix] به منظور جلوگیری از حفظ کردن[x]، میزان خطای تست خیلی پایین است (یا می توان گفت صحت تست بالاست) که این حاکی از آموزش دیدن خوب شبکه در ضمنِ عدم حفظ کردن دادههاست. همان طور که ذکر شد، با تغییر ساختار شبکهها در قسمت gating و خبره، قدرت شبکه در یادگیری داده ها افزایش یافته و از طرفی، زیاد شدن پارامتر های ناشی از افزایش قدرت شبکه (که امری نا مطلوب است) ،با اختصاص دادن داده های بیشتر در فاز تعلیم به شبکه جبران شده و به صحت بالاتری در مقایسه با مرجع[1] رسیده است(البته، نتایج فوق با اعمال حد آستانه 0.05 روی تفاضل خروجی نهایی از مقدار مطلوب شبکه به دست آمده است). اگرچه نباید از تاثیر منفی این امر (یعنی افزایش زمان رسیدن به جواب در مقایسه با مرجع [1]) غافل بود، ولی بررسی نحوه تاثیر برآیند همه عوامل مثبت و منفی اشاره شده، نشان می دهد که استفاده از الگوریتم پیشنهادی توانمندی شبکه را نسبت به روش های ارائه شده در مقالات دیگر، بهبود داده است. ناگفته نماند که افزایش زمان رسیدن به جواب با توجه به پیچیدگی شبکه و تعداد نورونهای به کار رفته در ساختار شبکه، امری منطقی و قابل پیش بینی است. در جدول (2) نتایج گزارش شده مرجع 1 و این مقاله، در مقایسه با هم ارائه شده است. همچنین، نکته دیگری که با توجه به نتایج به دست آمده میتوان اشاره کرد، این است که ترکیب چند شبکه عصبی حتی بدون استفاده از ساختار احتمالی در به دست آوردن وزنها در مسأله طبقه بندی، می تواند تولید صحت بالاتر در زمان کمتر کند که این مسأله از نظر طبقه بندی مهم و ارزشمند است.
در مجموع، با توجه به نتایج [1] و نتایج مقاله ،روش پیشنهادی سیستم هوشمند ترکیبی نسبت به روش شبکه خبره کلاسیک ( روش استفاده شده در مرجع 1) برتری دارد، زیرا کاهش تعداد پارامترهای شبکه باعث ناتوانی شبکه است و از طرفی تعداد دادگان کم برای آموزش موجب عدم تعلیم کافی شبکه می شود و لازمه حل این مشکل، افزایش دادگان در فاز تعلیم است، به طوری که بتواند محدوده قابل قبولی از تنوعات را پوشش دهد. که در این مطالعه این موضوع با افزایش 50% (برای مرجع [1]) به 70% محقق شده است .
جدول(2): مقایسه نتایج ساختار پیشنهادی و ساختار بیان شده در مقاله [1]
روش |
صحت |
زمان |
ME در مقاله [1] |
53/95 |
14دقیقه و51 ثانیه |
ME پیشنهادی |
50/99 |
40دقیقه و23 ثانیه |