تحلیل سیگنال گفتار بیماران آلزایمری فارسی‌زبان

نویسندگان

1 کارشناسی مخابرات، دانشکده فنی و مهندسی، دانشگاه اراک، اراک، ایران

2 استادیار، گروه مهندسی برق، دانشکده فنی و مهندسی، دانشگاه اراک، اراک، ایران

10.22108/isee.2019.109797.1109

چکیده

آلزایمر یک نوع اختلال عملکرد مغزی است که به‌تدریج توانایی‌های ذهنی بیمار تحلیل می‌رود؛ ازجمله علائم اولیة این بیماری فقدان حافظه، اختلال در تصمیم‌گیری و اشتباه در انتخاب واژگان درست است؛ بنابراین، پردازش سیگنال گفتار این بیماری توجه بسیاری از پژوهشگران را در دهه اخیر جلب کرده است. تشخیص بیماری آلزایمر با استفاده از سیگنال گفتار به فرهنگ و زبان و محتوای گفتار، جنسیت، سن، لهجه و بسیاری از عوامل دیگر وابسته است؛ ازاین‌رو، سیگنال گفتار بیماران آلزایمری در زبان‌های مختلف بررسی شده است. هدف این مقاله تشخیص بیماران آلزایمری از افراد سالم با استفاده از پردازش سیگنال گفتار آنها در زبان فارسی با ترکیب ویژگی‌های زمانی، فرکانسی و زمانی - فرکانسی است. در این مقاله پس از پیش‌پردازش سیگنال گفتار فارسی با بهره‌گیری از بسته موجک، به‌عنوان ویژگی زمان - فرکانس در کنار ضرایب کپسترال فرکانس مل، نرخ عبور از صفر، افت طیف، پهنای باند، انرژی سیگنال و فرکانس مرکز طیفی، ویژگی‌های سیگنال گفتار بیماران آلزایمری و افراد سالم استخراج شدند و دقت طبقه‌بندی نتایج با ماشین بردار پشتیبان، نتیجة 96% را دربرداشت. نتایج پذیرفتنی نشان‌دهندة الگوریتم پیشنهادی غیرتهاجمی و کم‌هزینه در تشخیص بیماران آلزایمری فارسی‌زبان است.

کلیدواژه‌ها


عنوان مقاله [English]

Alzheimer Speech Signal Analysis of Persian speaking Alzheimer's patients

نویسندگان [English]

  • Mahdieh Rahmani 1
  • Maryam Momeni 2
1 Faculty of Engineering, University of Arak, Arak, Iran
2 Faculty of Engineering, University of Arak, Arak, Iran
چکیده [English]

Alzheimer's is a type of brain dementia that gradually reduces mental abilities of the patient. The lack of memory, decision-making disorder, and mistakes in choosing the correct vocabulary are the early symptoms of Alzheimer's disease. Therefore, extensive studies have been conducted on the diagnosis of Alzheimer's disease using the non-invasive speech signal recognition method. Identifying of Alzheimer's disease is dependent on culture and language, speech content, gender, age, accent, and many other factors. Therefore, Alzheimer's speech signal has been studied in various languages. The purpose of this paper is to recognize Alzheimer's patients from healthy people by the use of their speech signal processing in Persian using the combination of time, frequency, and frequency-temporal features. In this paper, after pre-processing, the speech features extracted using the wavelet packet as a frequency-temporal feature next to Mel frequency Cepstral coefficients, zero crossing rate, spectral roll off, band width, root mean square and spectral centroid frequency. Finally, the extracted features have been classified by the support vector machine which achieves recognition precision of 96% on Persian healthy and Alzheimer's speaker experiments. The acceptable results demonstrate the applicability of the proposed non-invasive and low-cost algorithm for the diagnosis of Persian-speaking Alzheimer's patients.

کلیدواژه‌ها [English]

  • Alzheimer's disease
  • Speech Signal
  • Discrete Wavelet Transform
  • Support Vector Machine

1- مقدمه[1]

آلزایمر یک نوع اختلال عملکرد مغزی است که به‌تدریج توانایی‌های ذهنی بیمار تحلیل می‌رود. علائم اولیة این بیماری فقدان حافظه، اختلال در تصمیم‌گیری و اشتباه در انتخاب واژگان درست است. یکی از نخستین بخش‌های تأثیرگرفته از این بیماری، قسمتی از قشر مغز است که توانایی پردازش صحبت را دارد [1]؛ بنابراین، پردازش سیگنال گفتار این بیماری می‌تواند در تشخیص آن مفید واقع شود. همچنین، تجزیه و تحلیل سیگنال گفتار در بسیاری از موارد برای ایجاد ارتباط بهتر و آسان‌تر بین انسان و ماشین صورت گرفته است [2]. این حقیقت سبب شده است پژوهشگران علاقة زیادی به سیگنال گفتار داشته باشند تا بتوانند ارتباط بین ماشین و انسان را به این طریق به وجود آورند که پردازش خودکار گفتار ([1]ASR) این امکان را برای پژوهشگران فراهم کرده است [3].

همچنین، تشخیص بیماری آلزایمر با استفاده از سیگنال گفتار به فرهنگ و زبان و محتوای گفتار، جنسیت، سن، لهجه و بسیاری از عوامل دیگر وابسته است [4]؛ ازاین‌رو سیگنال گفتار بیماران آلزایمری در زبان‌های فارسی [5]، اسپانیایی [6]، انگلیسی [7]، فرانسوی [8]، کاتالان، چینی، باسک، عربی، پرتغالی [9] و روسی [10] بررسی شده است. به‌طور کلی بررسی سیگنال گفتار بیماران آلزایمری شامل دو مرحلة استخراج ویژگی و طبقه‌بندی است [11]. به دست آوردن بهترین نتیجه و استخراج درست ویژگی در مرحلة نخست بر روند انجام مرحلة دوم تأثیر می‌گذارد. در مرحلة نخست باید اطلاعاتی از سیگنال گفتار استخراج شود که حداکثر تفاوت را بین ویژگی‌های افراد سالم و بیماران آلزایمری داشته باشد.

نشان داده شده است که ویژگی‌های نوایی مثل فرکانس پایه، فرمنت‌ها [13،12]، ویژگی‌های زبان و فرکانس مانند ضرایب کپسترال فرکانس مل ([2]MFCC) در این حوزه بسیار پرکاربرد است [14]. در مرجع [9]، ابعاد فرکتال و پارامتر‌های خطی برای بهبود عملکرد سیستم تشخیص بیماری آلزایمر بررسی می‌شود. در مرجع [8]، نخستین نشانگرهای صوتی از سیگنال گفتار سه سطح از بیماران آلزایمری استخراج شده و اختلال شناختی بیماران آلزایمری در مراحل اولیه و افراد سالم ارزیابی شده است. در مرجع [15]، ویژگی‌های وابسته به تغییرات زمانی سیگنال گفتار در بیماران آلزایمری ارزیابی شده است. در مرجع [16]، اهمیت حروف بی‌صدا در دستیابی به نتایج مطلوب در تشخیص بیماری نشان داده شده است. در مرجع [17]، شدت و سطح بیماری آلزایمر با استفاده از روان صحبت کردن و تشحیص احساس بیماران بررسی شده که برای شناسایی احساس از ویژگی‌های پروزودیک[3] و زبان‌شناختی سیگنال گفتار استفاده شده است. در مرجع [10]، ویژگی‌هایی از سیگنال گفتار همچون نقش کلمات در جمله، گرامر صحیح، تلفظ کلمات، روانشناسی لغات و MFCC بیماران روسی زبان بررسی شده است. در مرجع [6]، ویژگی‌هایی همچون تعداد فعل، اسم، حروف ربط و روش‌های آماری از سیگنال گفتار بیماران آلزایمری اسپانیایی زبان بررسی  شده و طبقه‌بندی با استفاده از ماشین بردار پشتیبان([4]SVM)  با کرنل تابع پایه شعاعی ([5]RBF) صورت گرفته است.

مطالعات نشان می‌دهند حدود دو سوم از سیگنال گفتار صدادار است و نقش بسیار مهمی در گفتار دارد که به‌دلیل طبیعت متناوب می‌تواند شناسایی و استخراج شود [19،18]. بررسی‌های انجام‌شده نشان می‌دهند طنین حروف صدادار و بی‌صدا در بیماران آلزایمری تفاوت بسیاری دارند؛ بنابراین، ویژگی‌هایی که حروف صدادار در آنها نقش مهمی بر عهده دارند، مانند انرژی، فرکانس مرکزی طیف ([6]SC)، نرخ عبور از صفر ([7]ZC)، میانگین مربعات ([8]RMS)، پهنای باند ([9]BW) و افت طیف ([10]SR) می‌توانند مفید واقع شوند [20]. در مقالة حاضر نیز از این ویژگی‌ها استفاده شده است.

همچنین، تبدیل موجک در تحلیل سیگنال گفتار استفاده می‌شود؛ زیرا تجزیه و تحلیل را با رزولوشن چندمنظوره انجام می‌دهد و امروزه در تحلیل سیگنال‌های بیولوژیکی بسیار استفاده می‌شود [22،21]. بسته موجک، تعمیم‌یافتة تبدیل موجک است و به‌دلیل حجم بالای اطلاعات استخراج‌شده، آنتروپی در گره‌های درخت موجک به‌عنوان بردار ویژگی استفاده می‌شود [23-28]. در مقالة حاضر نیز از بسته موجک برای تکمیل بردار ویژگی استفاده شده است؛ زیرا بسته موجک به‌طور چشمگیری تفاوت بین سیگنال‌ها را نشان می‌دهد [26].

در این مقاله، پس از اخذ سیگنال گفتار و پیش‌پردازش، ویژگی‌های زمانی، فرکانسی و زمانی - فرکانسی سیگنال گفتار بررسی و طبقه‌بندی شده و درنهایت، تحلیل نتایج صورت گرفته است (شکل 1).

 

طبقه‌بندی

 

MFCC

افت طیف

میانگین مربعات

فرکانس مرکز طیفی

نرخ عبور از صفر

انرژی سیگنال گفتار

فیلتر

سیگنال گفتار

آنتروپی‌موجک

پنجره همینگ

 

تبدیل ‌موجک

شکل (1): بلوک دیاگرام مراحل انجام کار

2- روش

2-1- داده

صدای ضبط‌شده از بیماران آلزایمری در مرکز نگهداری بیماران آلزایمری شایستگان با میکروفون SWD\MMDEVAPI HP جمع‌آوری شده است. اطلاعات به‌دست‌آمده شامل 100 داده از افراد سالم و بیماران آلزایمری در فاصلة سنی 85-50 سال است. داده‌های پردازش‌شده در محیطی دوستانه، جمع‌آوری و از بیماران سؤالاتی مشخص در آرامش پرسیده شده است. مدت زمان مکالمة ضبط‌شدة هریک از مصاحبه‌شوندگان حدود 70 دقیقه و در فرمت .wav است. این پژوهش، مجوز اخلاقی از مرکز مربوطه دارد. داده‌های اخذشده با پردازشگر i5-5200U CPU 2.20GHz و با نرم‌افزار متلب 2018 (MATLAB) پردازش شده‌اند.

2-2- پیش‌پردازش

ابتدا نویز موجود در داده‌های جمع‌آوری‌شده، حذف و سیگنال گفتار نرمالیزه می‌شود. سپس با توجه به ماهیت غیرایستان سیگنال گفتار، با استفاده از پنجره همینگ، به قسمت‌های 50-30 میلی‌ثانیه با همپوشانی 50%، تقسیم و سکوت در سیگنال گفتار با عبور از صفر و انرژی سیگنال حذف می‌شود. شکل موج سیگنال گفتار و سکوت
(نمودار پالس) در شکل (2) مشاهده می‌شود؛ هر کجا الگوریتم تشخیص سکوت بدهد (مکان‌هایی که مقدار انرژی و نرخ عبور از صفر، از آستانه‌های مربوطه کمتر است)، نمودار پالس مقدار 2/0 می‌گیرد، در غیر این صورت مقدار آن صفر است. پس از حذف سکوت و فیلترکردن، سیگنال گفتار با نرخ یکسان نمونه‌برداری می‌شود.

 

شکل (2): شکل موج سیگنال گفتار و سکوت (نمودار پالس)

2-3- استخراج ویژگی

گفتار بیماران آلزایمری آرام‌تر و با تعداد مکث‌های زیادی است و برای پیداکردن کلمة مناسب مدت زمان زیادی را صرف و بیشتر جملات خود را ناتمام رها می‌کنند. در سیگنال گفتار افراد سالم، حروف صدادار به‌خوبی مشهودند و تعداد بیشتری حرف صدادار دارد؛ درحالی‌که در سیگنال گفتار بیماران آلزایمری حروف صدادار کاهش یافته‌اند و درنتیجه، انرژی سیگنال کمتر می‌شود؛ زیرا حروف صدادار دارای سطح بالایی از انرژی‌اند. همچنین، بیان جملات مشابه در بیماران آلزایمری سرعت کمتری نسبت به افراد سالم دارد. بنابراین، سبب افزایش طول سیگنال گفتار برای جملات و کلمات مشابه می‌شود؛ درنتیجه، این ویژگی‌ها بر انرژی و پهنای باند سیگنال تأثیر می‌گذارند. در شکل (3)، سیگنال گفتار بیمار آلزایمری و فرد سالم نشان داده شده است. انرژی سیگنال در بیمار آلزایمری نسبت به فرد سالم 7880/0 است.

 

 

(الف)

 

(ب)

شکل (3): سیگنال گفتار بیمار آلزایمری (الف)
و فرد سالم (ب)

 

در این مطالعه، ویژگی‌های استخراج‌شده به سه دسته تقسیم می‌شوند:

  • · حوزة زمان: ZC وRMS ؛
  • · حوزة فرکانس: SC،SR ،BW  وMFCC ؛
  • · حوزة زمان - فرکانس: درخت موجک.

استخراج ویژگی ZC یکی از رایج‌ترین روش‌ها برای تحلیل سیگنال گفتار است. نرخ عبور از صفر، نرخ تغییرات علامت در طول یک سیگنال است؛ یعنی نرخی که سیگنال از مثبت به صفر تا منفی یا از منفی به صفر تا مثبت تغییر می‌کند. به کمک رابطة زیر برای هر فریم نرخ عبور از صفر به دست می‌آید:

(1)

 

در رابطة بالا  نمونه‌های سیگنال مربوط به فریم ام و  طول فریم است که برابر با 480 نمونه
(30 میلی‌ثانیه) در نظر گرفته‌ شده‌اند.

به‌منظور محاسبة مقدار RMS سیگنال‌های متناوب، روش‌های مختلفی وجود دارند که در اینجا از انتگرال یکپارچه‌سازی داده‌های پیوسته و از رابطة زیر به دست آمده است [27]:

 

(2)

 

 

که در آن  مقدار   سیگنال   در بازة بین  و  و  دورة تناوب سیگنال  است.

SC تخمینی از مرکز ثقل طیف در هر باند فرعی است؛ در اصل به‌عنوان یک ویژگی برای سیستم تشخیص گفتار ارائه شده است. طیف مرکزی فرکانس، میانگین وزن‌های فرکانسی باندهای فرعی را محاسبه می‌کند که در آن وزن‌ها نرمالیزه شده‌اند و بیان‌کنندة انرژی هریک از مؤلفه‌های فرکانسی‌اند [28]:

 

(3)

 

 

که S[f] طیف سیگنال گفتار است و می‌تواند با استفاده از فیلتر گابور[11] که در حوزة فرکانس با   نمایش داده می‌شود به m باند فرعی تقسیم شود. با فرض کمترین فرکانس   و بیشترین فرکانس  در mامین باند فرعی،  در mامین باند فرعی محاسبه می‌شود.

SR، 95% از توزیع طیفی توان را مشخص می‌کند. این اندازه‌گیری قسمت‌های صدادار و بی‌صدای گفتار را از هم متمایز می‌کند. کلمات بی‌صدا محدودة وسیعی از طیف فرکانسی را شامل می‌شوند؛ اما بیشتر انرژی مربوط به کلمات بی‌صدا در باند‌های پایینی قرار دارند [29].

محاسبة ضرایب MFCC، روش رایج و معروف در زمینة ستخراج ویژگی سیگنال گفتار است. مطالعات نشان می‌دهند سیستم شنوایی انسان، سیستم خطی نیست؛ به این صورت که برای مؤلفه‌های زیر 1000 هرتز، به‌صورت خطی و برای مؤلفه‌های بالای 1000 هرتز به‌صورت لگاریتمی عمل می‌کند [30]. این امر سبب آشکارشدن ویژگی‌ها و مشخصات آکوستیکی سیگنال گفتار می‌شود. براساس رابطة (4)، فرکانس  در مقیاس مل حاصل می‌شود:

 

(4)

 

 

بلوک دیاگرام محاسبة MFCC در شکل (4) نمایش داده شده است. برای محاسبة ضرایب، ابتدا سیگنال گفتار با اعمال پنجره همینگ با طول 256 نمونه پنجره‌گذاری می‌شود که در 128 نمونه همپوشانی دارند. استفاده از پنجره همینگ باعث می‌شود کمترین اطلاعات فرکانسی از دست برود.

شکل(4):بلوکدیاگراممحاسبةMFCC

بعد از مرحلة پنجره‌گذاری تبدیل فوریه سریع روی هر فریم، اعمال و سپس بانک فیلتری مثلثی در مقیاس مل اعمال می‌شود و در مرحلة نهایی با اعمال تبدیل کسینوس با رابطة (5)، ضرایب از مقیاس مل به مقیاس زمانی تبدیل می‌شوند:

 

(5)

 

 

که در آن  ضریب nام ضرایب MFCC،  خروجی امین کانال بانک فیلتر،  تعداد کانال‌های بانک فیلتر است و   است. در این مقاله تعداد کانال‌های فیلتر، 40 و تعداد ضرایب انتخابی 19 در نظر گرفته شده است.

تبدیل موجک اطلاعات دقیقی از سیگنال گفتار را دربردارد و این اجازه را می‌دهد تا در مقیاس‌های متفاوت سیگنال بررسی شود [31]. تابع موجک برای ایجاد تعادلی بین حوزة زمان (بازه محدود) و حوزة فرکانس (پهنای باند محدود) به کار می‌رود. با تحلیل و تغییر اندازة موجک مادر، اجزای فرکانس پایین و بالا را به‌ترتیب در مقیاس‌های بزرگ و کوچک می‌توان مشاهده کرد [32]. تبدیل موجک از رابطة (6) به دست می‌آید:

 

(6)

 

 

که در آن،  تبدیل ویولت اصلی است و  و  به‌ترتیب ضرایب مقیاس و جابجایی‌اند. معمولاً ضرایب  و  در تبدیل موجک گسسته به شکل زیر تعیین می‌شوند:

 

(7)

 
 

 

که در آن  و  عدد صحیح‌اند؛ بنابراین، تبدیل موجک گسسته از رابطة زیر به دست می‌آید:

 

(8)

 

 

گرچه پارامترهای این تبدیل گسسته‌اند، این تبدیل در حوزة زمان پیوسته است و ضرایب تجزیة موجک به کمک رابطة زیر محاسبه می‌شود:

 

(9)

 

که

 

(10)

 

 

تبدیل موجک کمک شایان توجهی در تحلیل و استخراج ویژگی سیگنال می‌کند. سیگنال در تبدیل موجک به دو گروه تقریب و جزئیات دسته‌بندی می‌شود و این روند روی نتایج تقریب ادامه می‌یابد؛ درحالی‌که در بسته موجک همین روند روی هر دو گروه تقریب و جزییات تکرار می‌شود. بنابراین، تجزیه و تحلیل سیگنال به کمک بسته موجک نسبت به تبدیل موجک اطلاعات بیشتری خواهد داشت [33]. افزایش عمق پیشروی بسته موجک سبب می‌شود تحلیل سیگنال به‌صورت جزئی‌تر و کامل‌تر بررسی شود؛ اما حجم و زمان محاسبات افزایش می‌یابد. شکل (5)، درخت بسته موجک با عمق پیشروی 4 شامل 31 گره را نشان می‌دهد.

 

شکل(5): درخت بسته موجک با عمق پیشروی 4

حجم بالای ضرایب و چند بعدی بودن آنها سبب می‌شود از آنتروپی شانون استفاده شود. آنتروپی معیاری از اطلاعات موجود در هر گره است. محاسبة اعداد و ویژگی‌های استخراج‌شده از گره‌ها در بسته موجک، با استفاده از آنتروپی شانون، اطلاعات بسیار ارزشمندی را در اختیار ما قرار می‌دهد و کاهش حجم اطلاعات و محاسبات را سبب می‌شود [34].

2-4- طبقه‌بندی

عملکرد سیستم‌های ASR مستقیماً به ابزار طبقه‌بندی استفاده‌شده بستگی دارد. به‌طور کلی دو نوع ابزار طبقه‌بندی‌کننده وجود دارد؛ مولد[12] و تشخیصی[13][35]. مدل مولد سعی می‌کند پراکندگی داده‌ها را در یک کلاس خاص تخمین بزند، داده‌های رقابتی را نادیده می‌گیرد و فقط اطلاعات مرتبط را در نظر می‌گیرد؛ مدل مخفی مارکف از این نوع است. مدل تشخیصی سعی می‌کند تابع طبقه‌بندی را پیش‌بینی کند و خطاهای طبقه‌بندی را تا حد ممکن کاهش دهد؛ SVM [36] و شبکه‌های عصبی [37] از این نوع‌اند.

اساس کار SVM افزایش فاصله بین نمونه‌ها و مشخص‌کردن مرز طبقه‌بندی است. این فاصله، حاشیه شناخته می‌شود و با افزایش آن قادر به تعمیم الگو‌های ناشناخته است. راه‌حل افزایش حاشیه، به SVM این اجازه را می‌دهد تا بیشترین طبقه‌بندی‌های غیرخطی را در حضور نویز، یکی از مشکلات ASR، انجام دهد. همچنین، SVM‌ها مشکلات همگرایی و پایداری معمول که بیشتر شبکه‌های عصبی دارا هستند را ندارند. مفهوم اساسی نهفته در SVM، کاهش خطای ساختاری است [31]. یک دستگاه یادگیری به‌گونه‌ای انتخاب می‌شود که علاوه بر به حداقل رساندن خطای آزمون، تعمیم‌پذیری مناسبی در طبقه‌بندی و تخمینی از نسبت بردارهای طبقه‌بندی‌شده بر کل بردارهای آموزش داشته باشد [4].

3- نتایج

کارآیی روش پیشنهادی در این مقاله با استفاده از داده‌های جمع‌آوری‌شده از بیماران آلزایمری فارسی‌زبان بررسی شده است. شکل‌ (6)، اختلاف میانگین ویژگی‌های استخراج‌شدة نوزده ضریب MFCC در افراد سالم و آلزایمری را نشان می‌دهد که نرخ تغییرات در طیف سیگنال گفتار را مشخص می‌کند. مقادیر مثبت ضرایب MFCC نشان‌دهندة وجود انرژی بیشتر است و متعاقباً ضرایب منفی انرژی بسیار کمی را در سیگنال گفتار نشان می‌دهند [38]. مطابق شکل (6)، تعداد ضرایب مثبت در افراد سالم بیشتر است که نشان‌دهندة انرژی بیشتر در سیگنال گفتار این افراد است. ضرایب ابتدایی (ضریب 11-1) نشان‌دهندة چگونگی توزیع انرژی در طیف سیگنال گفتار است و دیگر ضرایب (19-12) جزئیات طیفی سیگنال را بررسی می‌کنند؛ به همین دلیل استفاده از این ضرایب در تحلیل سیگنال گفتار مطلوب است. در شکل (6) نیز این ضرایب تفاوت بیشتری در دو گروه دارند.

 

شکل (6): نسبت ضرایب MFCC در دو گروه افراد سالم (خط ممتد) و بیماران آلزایمری (مستطیل)

ضرایب حاصل در بردار ویژگی از MFCC، در دو گروه به‌صورت چشم‌گیری تغییر کرده‌اند که تفاوت‌های فرکانسی سیگنال‌های گفتار ارزیابی‌شده در بیماران آلزایمری و افراد سالم فارسی‌زبان، به این امر بسیار کمک کرده‌اند. این تفاوت‌ها که از ویژگی‌های حروف و تأثیرات بیماری آلزایمری بر سیگنال گفتار حاصل می‌شوند، ویژگی‌های مناسب برای طبقه‌بندی در نظر گرفته شده‌اند.

 

 

     

(ج)

(ب)

0

5

10

15

20

25

30

35

40

45

0

0.05

0.1

0.15

0.2

0.25

data

RMS

(الف)

شکل (7): پراکندگی ویژگی‌های RMS (الف)، ZC (ب)، SR (ج)، SC (د) و BW (ه) مربوط به بیماران آلزایمری (مربع) و افراد سالم (نقطه)

   

(ه)

(د)

 

 

شکل (7) نشان‌دهندة پراکندگی ویژگی‌های RMS، ZC، SR، SC و BW است و میزان تفاوت ویژگی‌های استخراج‌شده در هر دو گروه را نشان می‌دهد؛ برای مثال، در شکل (7-الف) که تفاوت ویژگی‌های استخراج‌شدة حاصل از RMS را نشان می‌دهد، سیگنال گفتار از دو گویندة آقا (فرد سالم و آلزایمری) با گفتن جملة «من یک کشاورز هستم» به دست آمده است. پس از محاسبة ویژگی از سیگنال گفتار مشاهده می‌شود ویژگی‌ استخراج‌شده بین افراد سالم (نقطه در شکل 7-الف) و آلزایمری (مربع در شکل 7-الف) متفاوت است که از این ویژگی در کنار دیگر ویژگی‌های به‌دست‌آمده برای طبقه‌بندی استفاده شده است.

همان‌طور که در شکل (8) مشاهده می‌شود، رگرسیون موجک‌های مادر دابیچیز ([14]db) نسبت به سایر موجک‌ها بالاتر است. همچنین، آنتروپی شانون موجک مادر db4 بهترین عملکرد را بین سایر موجک‌های db داشته است (جدول 1)؛ بنابراین، در این مطالعه از این موجک استفاده شده است.

با توجه به تأثیر عمق پیشروی در بسته موجک بر نتایج به‌دست‌آمده، عمق پیشروی‌های متفاوتی، بررسی و سپس ویژگی‌های استخراج‌شده با SVM ارزیابی و طبقه‌بندی شد. عمق پیشروی‌های متفاوت درخت موجک مادر db4 در تشخیص بیماری آلزایمر در جدول (2) نشان داده شده‌اند.

بسته موجک با عمق پیشروی 4 به سیگنال گفتار اعمال و اطلاعات موجود در گره‌های مشخص‌شده در شکل (5)، در شکل (9) نشان داده شده است.

جدول (1): نرخ تشخیص به‌ازای انواع موجک db

نوع موجک

نوع آنتروپی

درصد تشخیص

Db2

شانون

78/83

Db3

شانون

48/86

Db4

شانون

89/91

Db5

شانون

18/89

جدول (2): نرخ تشخیص به‌ازای عمق پیشروی‌های متفاوت موجک مادر db4

عمق پیشروی

ضرایب آنتروپی

درصد تشخیص

2

7

80

3

15

8/86

4

31

89

5

63

5/82

 

 

 

       

(الف)

(ب)

(ج)

(د)

     

شکل (8): رگرسیون مربوط به نتایج به‌دست‌آمده با استفاده از موجک مادر مورلت[15] (الف)، کلاه مکزیکی (ب)، میر[16](ج)، هر[17] (د)، db3 (ه)، db4 (و) و db5 (ز)

(ه)

(و)

(ز)

 

 

 

گره فرد (3،0) و زوج (3،1) به‌ترتیب خروجی‌های فیلتر بالاگذر و پایین‌گذر را نشان می‌دهند. شکل‌های
(9-ب) و (9-د)، جزئیات سیگنال و شکل‌های (9-الف) و (9-ج) کلیات سیگنال گفتار را نشان می‌دهند. جزئیات سیگنال دو گروه نشان‌دهندة تفاوت فرکانسی زیاد دو گروه و درنتیجه، تفاوت حروف صدادار آنهاست. پس از پیش‌پردازش و انتخاب موجک مادر مناسب، نسبت داده‌های آموزش و تست 60 به 40 درصد انتخاب شد و با استفاده از طبقه‌بند SVM با توابع کرنل مختلف داده‌ها طبقه‌بندی شده‌اند. به کمک روابط‌ (14-11) چهار معیار صحت، حساسیت، تشخیص و دقت عملکرد طبقه‌بندی ارزیابی شدند:

(11)

 

(12)

 

(13)

 

(14)

 

 

که در آن، TP مثبت درست، TN منفی درست،
FP مثبت نادرست و FN منفی نادرست است. نتایج صحت طبقه‌بندی برای بردارهای ویژگی متفاوتی در جدول (3) نشان داده شده‌اند و نتایج به‌دست‌آمده براساس تغییر نوع کرنل بررسی شده‌اند. همان‌طور که در جدول (3) نشان داده شده است، بهترین نتایج از طبقه‌بندی با کرنل چندجمله‌ای درجه 2 حاصل شده‌اند. چهار معیار صحت، حساسیت، تشخیص و دقت به همراه بازة اطمینان (CI[18]) 95% برای بردار ویژگی که بهترین عملکرد را در طبقه‌بند SVM با کرنل چندجمله‌ای درجه 2 داشته است، به‌ترتیب برابر (2/97%-6/85%=CI) 0/93%، (0/99%-2/89%CI=) 8/95%، (3/50% -5/30%CI=) 0/40% و (5/99% -5/90%=  CI) 8/96% شده‌اند.

 

 

1000

2000

3000

4000

5000

6000

7000

8000

-1

-0.5

0

0.5

1

10

5

Data for node: 7 or (3, 0).

Samples

1000

2000

3000

4000

5000

6000

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

10

5

Data for node: 7 or (3, 0).

Samples

(الف)

(ج)

1000

2000

3000

4000

5000

6000

7000

8000

-3000

-2000

-1000

0

1000

2000

Data for node: 8 or (3, 1).

Samples

1000

2000

3000

4000

5000

6000

-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5

10

4

Data for node: 8 or (3, 1).

Samples

(ب)

(د)

شکل (9): اطلاعات موجود در گره‌های مشخص‌شده در درخت موجک شکل (5)، شکل‌های (الف) و (ب) به‌ترتیب نشان‌دهندة سیگنال گره‌های (3،0) و (3،1) مربوط به بیمار آلزایمری و شکل‌های (ج) و (د) نظیر گره‌های گفته‌شده در فرد سالم

جدول (3): نتایج صحت طبقه‌بندی با SVM

MFCC+ ZC+SR+SR+BW+RMS

Wavelet Entropy

MFCC+ ZC+SR+SR

+BW+RMS

MFCC+

Wavelet Entropy

Wavelet Entropy

MFCC

ZC+SR+SC

+BW+RMS

نوع کرنل

93%

84%

91%

87%

86%

80%

چندجمله‌ای درجه 2

90%

80%

89%

89%

87%

82%

چندجمله‌ای درجه 3

82%

79%

84%

84%

84%

91%

چندجمله‌ای درجه 4

83%

75%

83%

91%

83%

90%

چندجمله‌ای درجه 5

73%

52%

68%

89%

71%

89%

چندجمله‌ای درجه 6

73%

68%

73%

79%

54%

69%

شبکة عصبی

75%

50%

75%

75%

75%

75%

توابع شعاعی=001/0

75%

50%

75%

75%

75%

75%

توابع شعاعی=01/0

75%

50%

75%

75%

75%

73%

توابع شعاعی=1/0

 

 

4- بحث و نتیجه‌گیری

گفتار یکی از مهم‌ترین راه‌های ارتباط انسانی است و به‌دلیل ماهیت آن، برای تشخیص زوال عقل استفاده می‌شود [39]. در این مقاله، روش پیشنهادی با استفاده از داده‌های جمع‌آوری‌شده از بیماران آلزایمری فارسی‌زبان مطالعه شده است. در اینجا هدف بررسی ویژگی‌های مستقل از گوینده است و تنوع جملات در داده‌های تست و آموزش رعایت شده است. به این صورت که جملات یکسان در اخذ دادة افراد سالم و آلزایمری استفاده شده‌اند؛ درحالی‌که تنوع جملات در هر دو گروه به‌منظور داشتن عوامل تأثیرگذار در پردازش سیگنال گفتار (لهجه، جنسیت، سن و سطح بیماری) و تشکیل پایگاه دادة عمومی‌تر برای کسب نتایج قابل اطمینان رعایت شده است.

این

0

5

10

15

20

25

30

35

40

45

0

0.05

0.1

0.15

0.2

0.25

data

RMS

 مقاله

0

5

10

15

20

25

30

35

40

45

0

0.05

0.1

0.15

0.2

0.25

data

RMS

 از ASR، روشی سودمند برای پردازش سیگنال گفتار بیماران آلزایمری، بهره گرفته است. انتخاب روش دقیق و درست برای استخراج بردار ویژگی از سیگنال گفتار تأثیر چشمگیری بر نتایج به‌دست‌آمده خواهد داشت؛ بنابراین در این مقاله سعی بر این است که از پردازش گفتار در علم پزشکی و تشخیص بیماری آلزایمر در مراحل اولیه استفاده شود. ویژگی‌هایی انتخاب و ارزیابی شده‌اند که بتوانند کمک شایان توجهی به این موضوع داشته باشند.

ویژگی‌های مطرح‌شده در این مقاله، ویژگی‌های نوایی و فرکانسی ZC، SR، SC، BW و RMS و همچنین، ویژگی‌های حاصل از بررسی فرکانس مل و استخراج ضرایب کپسترال آن و ضرایب حاصل از آنتروپی موجک‌اند که امروزه در پردازش سیگنال گفتار بسیار استفاده می‌شوند.

پس از استخراج ویژگی، طبقه‌بندی با SVM انجام گرفته است و کرنل‌های مختلف این روش ارزیابی شده‌اند. مطابق جدول (3)، بردار ویژگی از آنتروپی بسته موجک، MFCC، ZC، SR، SC، BW و RMS تشکیل شد و با کرنل‌های مختلفی ارزیابی شدند. کرنل توابع شعاعی در هر 6 بردار ویژگی نتایج خوبی نسبت به سایر کرنل‌ها نداشته است. بردار تشکیل‌شده از ویژگی‌های ZC، SR، SC، BW و RMS بهترین نتیجه را در طبقه‌بندی با صحت 91% و با استفاده از کرنل چندجمله‌ای درجه 4 داشته است.

نتیجة 91% بار دیگر در کرنل چندجمله‌ای درجه 2 برای بردار ویژگی MFCC به همراه آنتروپی بسته موجک ظاهر شده است؛ اما اضافه‌کردن ویژگی‌های ZC، SR، SC، BW و RMS به بردار ویژگی مذکور نتیجة 93% را داشته است که بهترین نتیجة حاصل از این طبقه‌بندی بوده است.

جدول (4)، خلاصة برخی مطالعات انجام‌شده در زمینة تحلیل سیگنال گفتار بیماران آلزایمری را نشان می‌دهد. همان‌طور که در جدول (4) مشاهده می‌شود، در مراجع [5،8،40]، ویژگی‌های زبانی و آماری سیگنال گفتار، پردازش و در [41،42] ویژگی‌های گفتاری و زبانی تحلیل شده‌اند. در [7] نیز گفتار از لحاظ احساس و عواطف بررسی شده است و در [9] زبان‌های مختلف بررسی شده‌اند. در مراجع [5،41،43]، ویژگی‌های آکوستیک و در [44،45] ویژگی‌های فرکانسی مانند MFCC استخراج و ارزیابی شده‌اند. ویژگی ‌آکوستیک، گفتاری و زبانی به‌صورت دستی استخراج می‌شوند که بسیار زمان‌برند و دقت بالایی ندارد. مرجع [5] باوجود عملکرد خوب، پیچیدگی محاسباتی دارد. در مقالة حاضر ویژگی‌های متداول در پردازش سیگنال گفتار، همچون بسته موجک در کنار ضرایب کپسترال فرکانس مل، نرخ عبور از صفر، افت طیف، پهنای باند، انرژی سیگنال و فرکانس مرکز طیفی سیگنال گفتار بیماران آلزایمری و افراد سالم فارسی‌زبان به‌طور خودکار استخراج شده‌اند و در این طبقه‌بندی، دقت به‌دست‌آمده با ماشین بردار پشتیبان 96% بوده است.

 

جدول (4): خلاصة برخی مطالعات انجام‌شده در زمینة تحلیل سیگنال گفتار بیماران آلزایمری

دقت (برحسب درصد)

روش تشخیص گفتار

زبان

ضرایب ویژگی استفاده‌شده

سال پژوهش

مراجع

90

k‌ نزدیک‌ترین همسایه

فرانسوی، انگلیسی، کاتالان، اسپانیایی، چینی، باسک، عربی، پرتغالی

فرکانس مرکز طیفی، انرژی کوتاه‌مدت، حروف صدادار و بی صدا، بعد فرکتال

2015

[9]

95

شبکة عصبی پروسپترون چند لایه

88

SVM

اسپانیایی

فعل، اسم، حروف اضافه و ربط، ویژگی‌های آماری

2016

[6]

96/99

میانگین مربع خطا و نمودارهای کانتور

فارسی

ویژگی‌های آکوستیک و استنتاج فازی و بهینه‌سازی

2016

[5]

نتایج جداگانه برای 38 ویژگی، عدم نتیجه‌گیری کلی، استخراج ویژگی به‌صورت دستی

SVM، بیز ساده، درخت تصمیم‌گیری،
k‌ نزدیک‌ترین همسایه

انگلیسی

نرخ کلمات پرسشی، تعداد فعل، اسم و حروف اضافه، فرکانس فعل، فرکانس اسم

2015

[4]

79/93

SVM

انگلیسی

ویژگی‌های احساس و عاطفی

2013

[7]

02/93

شبکة عصبی پروسپترون چندلایه

79/93

درخت تصمیم‌گیری

47/91

k‌ نزدیک‌ترین همسایه

59/87

بیز ساده

81

SVM

فرانسوی

میانگین، مدت زمان، انحراف استاندارد ویژگی‌های صدا، سکوت، متناوب‌بودن و نامتناوب‌بودن سیگنال گفتار

2015

[8]

80

F-score

آلمانی

ویژگی‌های گفتاری و زبانی

2016

[42]

23/62

k‌ نزدیک‌ترین همسایه

آلمانی

استخراج خطاهای گفتاری، ویژگی‌های آماری

2017

[40]

تحلیل خطی

SVM

6/60

مدل مخفی مارکوف

انگلیسی

ویژگی‌های آکوستیک

2018

[43]

مدل ترکیبی گوسی

6/73

شبکة عصبی پیچشی

انگلیسی

MFCC و جیتر و شیمر محلی

2018

[45]

9/81

-

آلمانی

ویژگی‌های آکوستیک (نرخ گفتار، سکوت و بردار i) و ویژگی‌های زبانی

2018

[41]

3/73

شبکة عصبی

مجارستانی

MFCC

2019

[44]

96

ماشین بردار پشتیبان

فارسی

ترکیب ویژگی‌های زمان، فرکانس و زمانی - فرکانسی

مقالة حاضر

 

 

 

مشاهده می‌شود نتیجة حاصل از این پژوهش در زبان فارسی با کارهای مشابه در زبان‌های دیگر مقایسه‌پذیر است؛ همچنین، استخراج ویژگی‌ها به‌صورت خودکار و مستقل از گوینده‌اند.

گسترش این کار می‌تواند امکان ابتلا به این بیماری را در افراد پیش‌بینی کند و این مسئله کمک شایان توجهی در خصوص بهبود زندگی افراد خواهد داشت. برای دستیابی به اطلاعات دقیق‌تر می‌توان افرادی را بررسی کرد که در سطح پایین‌تری از این بیماری قرار دارند و بیماری آنها به مرحلة حاد پیشرفت نکرده است. صحت عملکرد این ساختار را با علم پزشکی نیز می‌توان بررسی کرد. در عصر حاضر، پیش‌بینی‌های صورت‌گرفته در علم پزشکی براساس عوامل ژنتیکی، تحصیلات، حرفة افراد، منطقة آب‌وهوایی و سن افراد است که در صورت بررسی این موضوع به شکلی بسیار کامل‌تر این پیش‌بینی شکل دقیق‌تر و مفیدتری به خود خواهد گرفت.



[1] تاریخ ارسال مقاله: 05/12/1396

تاریخ پذیرش مقاله: 04/09/1398

نام نویسندۀ مسئول: مریم مؤمنی

نشانی نویسندۀ مسئول: ایران - اراک - دانشگاه اراک - دانشکده فنی و مهندسی - گروه مهندسی برق



[1] Automatic Speech Recognition

[2] Mel Frequency Cepstral Coefficients

[3] Prosodic

[4] Support Vector Machine

[5] Radial Basis Function Kernel

[6] Spectral Centroid

[7] Zero Crossing

[8] Root Mean Square

[9] Band Width

[10] Spectral Roll Off

[11] Gabor

[12] Generative

[13] Discriminative

[14] Daubechies

[15] Morlet

[16] Meyer

[17] Haar

[18] Confidence Interval