بازشناسی مقاوم گفتار با استفاده از ویژگی‌ الگوهای زمانی به دست آمده از ساختار شبکه عصبی بهینه شده MTMLP

نوع مقاله: مقاله علمی فارسی

نویسندگان

1 مربی، گروه پردازش صوت و زبان طبیعی، پژوهشگاه توسعه فناوری‌های پیشرفته - تهران – ایران و دانشجوی دکتری، دانشکده مهندسی‌پزشکی - دانشگاه صنعتی امیرکبیر - تهران - ایران

2 دانشیار گروه بیوالکتریک، دانشکده مهندسی‌پزشکی - دانشگاه صنعتی امیرکبیر - تهران - ایران

چکیده

ویژگی‌ الگوهای زمانی سیگنال صوتی از دو حوزه زمانی و یا بردارهای بازنمایی شده قابل استخراج است. این ویژگی دربرگیرنده اطلاعات و مشخصات زمان بلند از تغییرات پیوسته واحدهای گفتاری است. در این مقاله، ویژگی الگوهای زمانی با استفاده از خروجی مقدار احتمال پسین واجی ساختار بهینه شده شبکه عصبی MTMLP، از مجموعه بردارهای بازنمایی مبتنی بر طیف (مانند ویژگی گفتاری‌ LFBE) و همچنین، مبتنی بر کپستروم (مانند ویژگی گفتاری MFCC) استخراج شده است. با ترکیب اطلاعات الگوهای زمانی (دینامیکِ زمان‌بلند) به دست آمده از حوزه‌های لگاریتم طیف و کپستروم به بردار ویژگی‌های پایه بازشناسی، شامل ویژگی‌های گفتاری متداول MFCC و مشتقات زمانی اول و دوم آن (دینامیکِ زمان‌کوتاه)، نشان داده شده است که دقت بازشناسی واج در شرایط دادگان آزمون تمیز، حدود 1 درصد نسبت به نتایج بهترین سیستم پایه بازشناسی بهبود می‌یابد. این در حالی است که ویژگی‌های به دست آمده از روش پیشنهادی، بازشناسی مقاومتری را در شرایط نویزی مختلف (تا حدود 13 درصد) حاصل می‌نمایند که نشان دهنده مقاوم به نویز بودن روش پیشنهادی است.

کلیدواژه‌ها


عنوان مقاله [English]

Robust Speech Recognition Using Temporal Pattern Feature Extracted From MTMLP Structure

نویسندگان [English]

  • Yasser Shekofteh 1
  • Farshad Almasganj 2
1 PhD Candidate Amirkabir University of Technology
2 Associate Prof. Amirkabir University of Technology
چکیده [English]

Temporal Pattern feature of a speech signal could be either extracted from the time domain or via their front-end vectors. This feature includes long-term information of variations in the connected speech units. In this paper, the second approach is followed, i.e. the features which are the cases of temporal computations, consisting of Spectral-based (LFBE) and Cepstrum-based (MFCC) feature vectors, are considered. To extract these features, we use posterior probability-based output of the proposed MTMLP neural networks. The combination of the temporal patterns, which represents the long-term dynamics of the speech signal, together with some traditional features, composed of the MFCC and its first and second derivatives are evaluated in an ASR task. It is shown that the use of such a combined feature vector results in the increase of the phoneme recognition accuracy by more than 1 percent regarding the results of the baseline system, which does not benefit from the long-term temporal patterns. In addition, it is shown that the use of extracted features by the proposed method gives robust recognition under different noise conditions (by 13 percent) and, therefore, the proposed method is a robust feature extraction method.

کلیدواژه‌ها [English]

  • Speech Recognition
  • Feature Extraction
  • Temporal Pattern
  • Posterior Probability
  • Neural Network
  • Hidden Markov Model

در طی دو دهه اخیر محققان حوزه پردازش گفتار تلاش‌های زیادی برای بهبود عملکرد سیستم‌های خودکار بازشناس گفتار[1] (ASR) در شرایط تمیز انجام داده‌اند. مقاوم‌سازی سیستم بازشناسی نسبت به تنوعات مختلف گفتاری (مانند تنوعات گوینده، لهجه، نویز محیط، کانال انتقال و ...) نیز از دیگر حوزه‌های فعال در بحث بازشناسی گفتار است[1]. بیشتر تحقیقات انجام شده در زمینه مقاوم‌سازی بازشناسی گفتار نسبت به تنوعات، روی سه تکنیک عمده بهسازی گفتار، استخراج ویژگی‌های مقاوم و جبران‌سازی پارامترهای مدل صوتی متمرکز شده است[2].

از طرفی دیگر، تحقیقات اخیر نشان می‌دهد که نتایج به دست آمده از بهترین سیستم‌های ASR، پایین‌تر از نتایج بازشناسی سیستم شنوایی انسان است، از این‌رو، می‌توان امید داشت با الهام گرفتن از عملکرد فیزیولوژیک شنوایی انسان، بازشناسی این­ گونه سیستم‌ها را افزایش داد[3]. برای نمونه، با درنظر گرفتن فرکانس مدولاسیون جهاز صوتی انسان در محدوده 4 تا 16 هرتز، محدوده زمانی مفید برای اطلاعات هر قاب گفتاری تا 250 میلی ثانیه گسترش می‌یابد[4]. از طرفی دیگر، با بررسی آلِن (Alen) بر روی مدل چندباند درک آوا فِلچر (Feltcher)، مشخص ‌شد که استخراج اطلاعات صوتی در انسان، در باند‌های مختلف فرکانسی انجام می‌گیرد. این پدیده با ساختار غشای قاعده‌ای درون حلزونی گوش، به عنوان یک آنالیزکننده طیفی قابل توجیه است [5]. همچنین، ساختار سازمان‌های موازی و سلسله مراتبی در درک اطلاعات گفتاری انسان (واقع در بخش کورتکس شنوایی مغز) نیز یک­سری پردازش‌های موازی و چندباند اطلاعات صوتی بین نرون‌های عصبی مختلف نشان می‌دهد. این نوع پردازش، به ترکیب مناسب اطلاعات کسب شده از هر باند فرکانسی منجر می‌شود که در نهایت به بازشناسی مقاومتر انسان منجر خواهد شد [6].

در سال 1999 میلادی، هِرمانسکی (Hermansky) و شارما (Sharma) با الهام از شواهد فیزیولوژیک مطرح شده، یک روش جدید استخراج ویژگی مقاوم با عنوان TRAP (TempoRAl Pattern) به منظور استفاده از اطلاعات الگوهای زمانی[2] (TP) موجود در توالی بردارهای بازنمایی‌شده از سیگنال گفتار ارائه نمودند [7]. آنها در این روش، به جای اعمال مستقیم بردارهای بازنمایی متداول گفتاری به سیستم بازشناس، با اعمال نگاشت غیرخطی شبکه عصبی بر روی توالی زمانی مربوط به هر یک از عناصر بردارهای بازنمایی شده و تخمین مقادیر احتمالات پسین[3] (PP) واجی، در جهت تولید ویژگی‌های جدید اقدام نمودند. در ادامه و در [8] دو مدل شبکه عصبی دیگر (HATS و TMLP)، در جهت تکمیل روش‌های استخراج ویژگی مبتنی بر الگوهای زمانی معرفی و بررسی شده است. ساختار سیستم بازشناس نهایی TANDEM نام داشت که نگاشت شبکه عصبی در بخش استخراج ویژگی آن و مدل مخفی مارکوف (HMM)، مدل بازشناس اصلی آن بود (شکل 1). علاوه بر نگاشت غیرخطی شبکه عصبی، اثر استفاده از نگاشت‌های خطی آنالیز متمایزگر خطی[4] (LDA) و آنالیز مؤلفه‌های اساسی[5] (PCA) نیز بررسی شده است که نتایج ضعیف‌تری نسبت به نگاشت غیرخطی شبکه عصبی دربرداشتند [9].

 

 

 

شکل (1): ساختار سیستم بازشناس TANDEM ]6[.

 

 

از طرفی دیگر، ایده TRAP مشابه با روش چندباند است که در [10] مطرح شده است. در روش چندباند، طیف فرکانسی مربوط به هر قاب زمانی به چند زیرباند بدون همپوشانی تقسیم و سپس استخراج ویژگی از هر یک از زیرباندها به صورت مستقل و یا ترکیبی انجام می‌شود، اما در روش TRAP، تعداد زیرباندها به تعداد عناصر بردار بازنمایی و البته، همراه با همپوشانی افزایش می‌یابد. همچنین، در روش TRAP از محدوده اطلاعات زمانی بسیار بزرگتری نسبت به روش چند باند استفاده می‌شود، اما خاصیت مشترک هر دو روش در مقاوم‌ بودن آنها در برابر تنوعات گفتاری است.

از جمله فعالیت‌های دیگری که به منظور استخراج و بهبود این نوع ویژگی انجام گرفته است، بهبود ورودی نگاشت غیرخطی شبکه عصبی است. در [11] ورودی مورد نیاز برای مدل شبکه عصبی، با استفاده از اعمال مستقیم بانک ‌فیلترهای میان‌گذر بر روی سیگنال زمانی گفتار انجام شده است. در [12] نیز ورودی‌های شبکه با اعمال روش پیشگویی خطی (LP) بر طیف سیگنال تولید شده است. همچنین، هِرمانسکی در [13] نشان داد که استفاده از اطلاعات سه دنباله ویژگی مجاور هم به جای یک دنباله، باعث افزایش نتایج بازشناسی خواهد شد. روش‌هایی نیز برای بهبود ساختار شبکه عصبی مدل‌ها معرفی شده است. برای مثال، در [14] اثر کاربرد شبکه‌های سلسله مراتبی[6] بررسی شده است که به تعلیم مناسبتر واج‌های مشابه منجر می‌شود.

در تحقیق حاضر، روش بهبود یافته­ای برای استخراج ویژگی‌های مقاوم گفتاری مبتنی بر ایده الگوهای زمانی پیشنهاد شده است. این روش شامل دو ایده پیشنهادی در تغییر ساختار لایه خروجی شبکه عصبی TMLP و ترکیب اطلاعات به دست آمده از خروجی دو شبکه است که این شبکه‌ها دربرگیرنده ویژگی‌های متداول از حوزه‌های متمایز کپستروم و طیفی هستند تا بتوانند در بهبود بخش نگاشت غیرخطی شبکه عصبی، به منظور افزایش کارایی سیستم بازشناسی گفتار با ساختار TANDEM مؤثر باشند. از این رو، در بخش 2 به معرفی اولیه ویژگی الگوی زمانی (TP) و خواص ویژگی‌های گفتاری مبتنی بر احتمالات پسین خواهیم پرداخت. در بخش 3 مجموعه دادگان و سیستم بازشناس معرفی می‌شود. بخش 4 شامل ارائه مدل شبکه عصبی TMLP و مدل پیشنهادی MTMLP است. در بخش 5 چگونگی اعمال تغییرات مورد نیاز بر روی ویژگی‌ها و نحوه اعمال آنها به سیستم بازشناس بیان می‌شود. در بخش 6 نتایج آزمایش­های به دست آمده از روش پیشنهادی ارائه و بحث و بررسی می‌شوند و در بخش آخر مقاله نتیجه‌گیری آورده شده است.

 

1- استخراج ویژگی الگوهای ‌زمانی

در روش استخراج ویژگی الگوهای زمانی، برخلاف سیستم‌های متداول بازشناسی گفتار که در آن ویژگی‌های استخراج شده براساس انرژی باندهای فرکانسی قاب‌های زمان‌ کوتاه[7] سیگنال گفتار به دست می‌آیند، اطلاعات مورد نیاز برای بازشناسی، از توالی هر یک از عناصر بردارهای بازنمایی (که ما آنها را دنباله عناصر ویژگی می‌نامیم) در یک محدوده زمانی نسبتاً طولانی‌تر حاصل می‌شوند. در شکل(2) این تمایز نشان داده شده است که در آن روش TRAP یکی از روش‌های اولیه استخراج اطلاعات الگوی زمانی (TP) است [7]. همان­طور که از شکل(2) استنباط می‌شود، ویژگی‌های به دست آمده از روش TRAP، بیانگر تغییرات دنباله هر یک از عناصر ویژگی خواهند بود. از این رو، این ویژگی، الگوی زمانی (TP) نامیده می‌شود. در حالت کلی این روش جزو روش‌های پس‌پردازش زمانی مبتنی بر داده[8] محسوب می‌شود [13،15 ].

مدلی که در ابتدا برای استخراج ویژگی‌ TP پیشنهاد شده بود، مدل Neural TRAPs نام داشت که از دو طبقه شبکه عصبی چند لایه پرسپترون[9] (MLP) تشکیل می‌شد [7]. در طبقه اول این مدل، به تعداد عناصر (بُعد) بردار بازنمایی گفتاری، شبکه عصبی MLP سه لایه به منظور یادگیری احتمال پسین واجی (خروجی شبکه) هر یک از دنباله‌های عناصر بردار ویژگی (ورودی شبکه) قرار داشت. در نتیجه، هر یک از MLPهای تعلیم یافته در طبقه اول مدل، همانند یک فیلتر تطبیقی، اطلاعات TP مربوط به واج‌ها را از دنباله‌های مربوط به یک عنصر بردار ویژگی یاد می‌‌گرفت. در طبقه دوم مدل نیز با استفاده از یک شبکه عصبی دیگر، اطلاعات TP به دست آمده از خروجی MLPهای طبقه اول، ترکیب می‌شد. بدین ترتیب، یک نگاشت با توانایی تخمین احتمال پسین مربوط به هر کلاس واجی از روی دنباله ویژگی‌های ورودی اعمالی به آن تولید می‌شد که مقید به یادگیری الگوی زمانی (TP) واج‌ها از دنباله‌های ویژگی ورودی به آن بود [13].

 

شکل (2): نحوه استفاده از ویژگی در روش‌های متداول بازشناسی گفتار (بالا) و روش TRAP (پایین) [7].

 

به­کارگیری ویژگی‌های مبتنی بر تخمین احتمال پسین یکی از حوزه‌های جدید در تحقیقات کاربردی برای بازشناسی گفتار است که در یک دهه اخیر مورد توجه محققان قرار گرفته است [16،22]. در این حوزه اغلب از کلاس‌بندی کننده غیرخطی مبتنی بر شبکه عصبی (مانند MLP) برای مدل‌سازی صوتی و تولید تخمین مقادیر احتمال پسین استفاده می‌شود [23،24]. در این مجموعه از روش‌ها، ورودی شبکه عصبی دربرگیرنده ویژگی‌های صوتی استاندارد همراه با محتوای زمانی اطراف هر قاب گفتاری است.

در [25] نشان داده شده است که اگر یک مدل شبکه عصبی به خوبی بر روی حجم وسیع و متنوعی از دادگان تعلیم گفتاری آموزش یابد، می‌تواند در لایه خروجی خود، تخمین مناسبی از مقدار احتمال پسین کلاس‌های گفتاری واج یا حالت‌های واجی[10] را به شرط ویژگی‌های ورودی تولید نماید. مدل‌سازی صوتی مبتنی بر شبکه عصبی دارای مزیت‌هایی است: اول اینکه به فرض دقیق بر روی نحوه توزیع ویژگی‌ها و شکل پارامتری تابع چگالی آنها نیاز ندارد. در نتیجه، ویژگی‌های متنوع ورودی از کلاس‌های مختلف گفتاری که هرکدام دارای شکل توزیع متفاوتی هستند، می‌توانند به راحتی با یکدیگر ملحق و به عنوان ورودی شبکه استفاده شوند [23]؛ دوم اینکه نشان داده شده است که اگر شبکه عصبی بر روی حجم وسیع و متنوعی از دادگان تعلیم آموزش یافته باشد، می‌تواند نسبت به مشخصه‌های گوینده و اطلاعات خاص محیطی مانند نویز نامتغیر باشد [26]. در پایان اینکه، خروجی‌های شبکه که شامل تخمینی از احتمالات پسین است، حاوی خصوصیات مفید (مانند مقدار مثبت و مجموع یک) است که یک چارچوب کارآمد برای ترکیب چندین کلاس‌بندی کننده ایجاد می‌کند [27].

ویژگی‌های مبتنی بر مقادیر احتمال پسین با توجه به ذات احتمالاتی بودن آنها، کاربرد مناسبی در حوزه شناسایی الگو دارند. برخی از خواص مهم این ویژگی‌ها در ادامه آورده شده است:

الف) حساسیت کمتر به تغییرات غیرزبانی

در ویژگی‌های متداول صوتی (مانند MFCC[11] یا LFBE[12] که مبتنی بر مدل منبع-فیلتر سیگنال گفتار هستند) درجه بالایی از تغییرات غیرزبانی[13] مانند مشخصه‌های گوینده و محیط (مانند نویز و کانال) دیده می‌شود. در [28،29] نشان داده شده است که اثرهای منفی مشخصه‌های هم‌تولیدی[14] در ویژگی‌های مبتنی بر احتمالات پسین نسبت به ویژگی‌های صوتی کمتر تاثیرگذار خواهد بود.

ب) خاصیت تُنُکی

ویژگی‌های پسین حاوی احتمالات کلاس‌های واجی به شرط ویژگی‌های صوتی اعمال شده هستند. از این­رو، برای هر قاب گفتاری، مجموع این احتمالات یک خواهد بود. به علاوه، این احتمالات به صورت تُنُک[15] در فضای ویژگی پسین توزیع یافته‌اند. توزیع تُنُک یکی از خواص مطلوب ویژگی‌های پسین است که در [23] بررسی شده است. توضیحات مناسبی در مورد مقدار جرم چگالی احتمالاتی آن‌ها و تمایز آنها در داده‌های تلفنی و میکروفونی در [21] آورده شده است. شایان ذکر است که بیان ویژگی‌های یک سیگنال به صورت تُنُک در کاربردهای فشرده‌سازی و مقاوم‌سازی آن نیز یکی از حوزه‌های مطالعاتی جذاب در دهه اخیر بوده است [30،33].

ج) تفکیک‌پذیری خطی بالا

این خاصیت در ساختار سلسله‌مراتبی که شامل چند طبقه متوالی از شبکه‌های عصبی است، بسیار مفید است. در این مورد، پارامترهای مدل شبکه عصبی در طبقات ثانویه ساختار سلسله‌مراتبی، باید به گونه‌ای بهینه‌سازی شوند که خطای بین بردارهای احتمالاتی پسین تخمین زده شده (خروجی شبکه طبقه اول به عنوان بردار ویژگی برای شبکه طبقه دوم) و بردارهای هدف خروجی (که به طور متداول در شکل صفر و یک یا همان قالب One-Hot هستند) کمینه شود. بردارهای هدف کلاس‌های واجی، در فضای چندبُعدی ویژگی‌های پسین، تفکیک‌پذیری خطی آنها را بیشتر مهیا می‌سازد [21]. اگر الگوریتم تعلیم شبکه براساس کمینه‌سازی میانگین مجذور خطا[16] (MSE) باشد، تخمینی از مقدار احتمالاتی پسین کلاس‌های واجی در خروجی شبکه به شرط قطعه[17] قاب‌های گفتاری ورودی اعمال شده به آن تولید خواهد شد [34،35].

 

2-  معرفی روش‌های متداول بازنمایی، دادگان و سیستم‌ بازشناس مورد استفاده

در این مقاله، استخراج ویژگی‌های احتمالات پسین مبتنی بر الگوهای زمانی، علاوه بر اینکه از مجموعه بردارهای بازنمایی لگاریتم انرژی فیلتر بانک (ویژگی‌های LFBE که در حوزه طیف هستند) انجام شده است، از مجموعه ضرایب کپسترال (ویژگی‌های MFCC که در حوزه کپستروم قرار دارند) نیز محاسبه شده است. در [36] نشان داده شده است که با متوسط‌گیری مقادیر احتمالاتی پسین به دست آمده از دو مدل شبکه عصبی (خروجی هر شبکه) که یکی بر روی ویژگی‌های حوزه لگاریتم طیف و دیگری بر روی ویژگی‌های حوزه کپستروم تعلیم یافته‌اند، بهبود نتایج خروجی شبکه عصبی حاصل خواهد شد؛ خصوصاً که ویژگی‌های حوزه لگاریتم طیف در شرایط تمیز و کم‌نویز و ویژگی‌های کپستروم در شرایط نویزی‌تر عملکرد بهتری دارند. بنابراین، با این شیوه ترکیب، می‌توانیم به دستیابی یک تخمین احتمال پسین مقاوم‌تر در شرایط مختلف تمیز و نویزی امیدوار باشیم.

از این‌رو، بردارهای بازنمایی مورد استفاده، شامل ضرایب MFCC و LFBE هستند که برای به دست آوردن بردارِ بازنمایی 19‌عنصری LFBE، از اعمال تابع لگاریتم، بر روی انرژیِ بانکِ فیلترهایِ 18‌تاییِ به دست آمده در مقیاس غیرخطی مِل (Mel) به همراه ویژگی انرژی کل طیف (E0) استفاده شده است. بردار 13‌عنصری MFCC نیز با استفاده از 12 ضریب اول کپستروم حاصل از ویژگی‌های LFBE و همچنین، ضریب صفرم کپسترال (C0) به دست آمده است. در بخش استخراج بردارهای بازنمایی سیگنال‌‌های گفتاری، از قاب‌‌های گفتاری با طول زمانی 2/23 میلی ثانیه (512 نمونه از سیگنال در هرقاب گفتاری) و همپوشانی 50% استفاده شده است. مقدار ضریب پیش‌تاکید نیز برابر 975/0 در نظر گرفته شد. پس از تولید بردارهای بازنمایی، روش تفریق میانگین (MS) در جهت مقاوم‌سازی بیشتر ویژ‌گی‌ها اعمال شده است [37]. از طرفی دیگر، به منظور مقایسه عملکرد ویژگی‌های به دست آمده از الگوهای زمانی (که بیانگر دینامیکِ زمان‌بلند دنباله‌های ویژگی هستند) با ویژگی‌های دینامیک مشتقات اول و دوم بردار ویژگی‌ها (که بیانگر دینامیکِ زمان‌کوتاهِ بردار ویژگی‌ها هستند)، مشتقات اول و دوم بردارهای بازنمایی نیز در این مرحله محاسبه می‌شوند.

از ساختار سیستم بازشناس TANDEM معرفی شده در بخش 1همراه با مدل مخفی مارکوف (HMM) (به عنوان مدل بازشناس واج به­وسیله نرم افزار HTK[38]) برای ارزیابی کارایی روش‌ استخراج ویژگی پیشنهادی استفاده شده است. در این جهت برای هر واج، یک مدل از چپ به راست با سه حالت و هر حالت شامل مخلوط 16 مدل گوسی (GMM) در نظر گرفته شده است. نتایج بازشناسی ارائه شده به صورت درصد دقت بازشناسی واج (%Acc) و به صورت بازشناسی پیوسته و مستقل از گوینده خواهند بود.

دادگان گفتاری مورد استفاده، از مجموعه دادگان فارس‌دات میکروفونی کوچک با نرخ نمونه‌برداری 22050 هرتز است [39]. از آن‌جایی که فایل‌های صوتی دادگان مورد استفاده در شرایط اتاق سکوت ضبط شده‌‌اند، دارای نرخ سیگنال به نویز (SNR) حدود 34dB هستند. بنابراین برای تولید دادگان نویزی با نویز جمع شونده، از نویزهای همهمه (نویز واقعی پیش زمینه)، صورتی (نویز باند باریک) و سفید (نویز باند پهن) مجموعه دادگان نویزی "NOISEX-92" در مقادیر مختلف سیگنال به نویز استفاده می‌شود [40].

مجموعه دادگان مورد استفاده شامل 6060 جمله است که از 5000 جمله (حدود 4 ساعت) به عنوان دادگان تعلیم و از مابقی آن (حدود یک ساعت) برای دادگان آزمون استفاده شده است. همچنین، به منظور تعمیم‌پذیری بیشتر مدل بازشناس نهایی، از 2000 جمله اول مجموعه دادگان تعلیم برای آموزش مدل شبکه عصبی و از 3000 جمله دیگر برای تعلیم مدل مخفی‌مارکوف استفاده شده است.

3- روش استخراج ویژگی TP به­وسیله مدل TMLP از بردارهای بازنمایی

یکی از روش‌های مناسب برای استخراج ویژگی الگوهای زمانی، استفاده از مدل شبکه‌ عصبی است. در این تحقیق از مدل TMLP[18] که ساختار آن الهام گرفته شده از بخش تونوتوپیک[19] سیستم شنوایی انسان است، درجهت استخراج ویژگی الگوهای زمانی استفاده می‌شود [8]. این مدل که در شکل (3) نشان داده شده است، برخلاف مدل Neural TRAPs، تنها شامل یک طبقه MLP چهار لایه است و بنابراین، آموزش آن تنها با یک مرحله تعلیم انجام می‌گیرد. این نوع ساختار مدل شبکه عصبی باعث می‌شود که در لایه‌های پایینی شبکه، پردازش ویژگی‌های ورودی به طور مستقل انجام گرفته و سپس این اطلاعات در لایه‌های بالاتر شبکه ترکیب شوند.

 

 

 

 

شکل (3): ساختار مدل TMLP با توالی N قاب زمانی و بردار ویژگی ورودی M بُعدی برای هر قاب زمانی.

 

 

تفاوتی که میان عملکرد این دو نوع مدل وجود دارد این است که در مدل TMLP به علت پس‌انتشار خطای ناشی از الگوریتم تعلیم بر روی تمامی دنباله‌های ویژگی ورودی آن، این مدل دنباله‌های ویژگی را یاد می‌گیرد که در برگیرنده اطلاعات مفیدتری از الگوهای زمانی باشند. از این‌رو، مدل TMLP مقید به یادگیری الگوهای زمانی (TP) موجود در هر یک از دنباله‌های ویژگی (‌چنانکه در تعلیم مدل Neural TRAPs اتفاق می‌افتد) نیست. ساختار مدل TMLP، برای 13 ویژگی‌ MFCC به صورت 13*(21*35)-13*(35*256)-256*30 در نظر گرفته شده است. بنابراین، محدوده زمانی بردارهای ویژگی ورودی به شبکه برای استخراج ویژگی الگوی زمانی درحدود 250 میلی‌ثانیه ((21+1)*11.6) خواهد بود.

تعلیم شبکه براساس برچسب‌دهی باینری نوع سخت (One Hot) انجام شده است. در این نوع برچسب‌دهی، به ازای هر مجموعه بردار بازنمایی ورودی به شبکه، یک خروجی 30 نرونی (به تعداد کلاس‌های واجی) به عنوان خروجی مطلوب آن تعریف می‌شود که یک نرون آن مقدار یک (متناظر با شماره کلاس واج مربوط به قاب میانی مجموعه بردار ورودی) و بقیه نرون‌های آن مقدار صفر دارند. بنابراین، پس از مرحله تعلیم، لایه خروجی شبکه می‌تواند بیانگر تخمین مقدار احتمالاتی پسین  هر یک از 30 کلاس واج فارسی ()، برای بردار ویژگی میانی jام ، از مجموعه بردارهای  اعمالی به ورودی شبکه باشد. در ادامه، با اعمال یک­سری تبدیلات خطی و غیرخطی بر روی مقادیر احتمالاتی پسین به دست آمده، بردار ویژگی جدید (که دربرگیرنده اطلاعات الگوهای زمانی واج‌هاست) تشکیل می‌شود. از این‌روست که این روش، روش استخراج ویژگی با استفاده از پردازش زمانی مبتنی بر داده نامیده می‌شود.

 

3-1- مدل پیشنهادی MTMLP و بهبود روش استخراج ویژگی TP

با توجه به دیدگاه الگوهای زمانی، از آن‌جا که اطلاعات موجود در ورودی مدل شبکه عصبی TMLP، به تعداد زیادی از بردارهای بازنمایی مربوط هستند (در اینجا 21 بردار) بنابراین، برای تعلیم مناسبتر نگاشت شبکه عصبی پیشنهاد می‌شود که علاوه بر استفاده از برچسب واج قاب میانی ورودی، از اطلاعات واجی مربوط به قاب‌های قبل و بعد قاب میانی نیز در لایه خروجی شبکه استفاده کنیم. با این روش، تعداد نرون‌های لایه خروجی به 90 نرون (سه خروجی که هر کدام شامل 30 نرون است) افزایش می‌یابد که در هنگام محاسبه مقادیر احتمالات پسین، می‌توان میانگین وزن‌داری از احتمالات مربوط به قاب‌های قبل و بعد را به قاب میانی افزود. این ساختار پیشنهادی را که می‌تواند به هموارسازی نتایج احتمالاتی خروجی کمک نماید (و در نتیجه تولید ویژگی‌هایی که می‌توانند به کاهش اثر درج واج منجر شوند)، مدل بهبودیافته TMLP (MTMLP) می‌نامیم. برای بیان کمی بهبود نتایج خروجی مدل MTMLP نسبت به مدل TMLP (که معادل با تمایزپذیری بیشتر ویژگی الگوی زمانی به دست آمده است)، از معیار دقت بازشناسی قاب استفاده می‌نماییم. در این معیار، با توجه به مقادیر احتمالاتی پسین به دست آمده برای هر قاب، کلاس واجی که بیشترین احتمال را کسب نموده، به عنوان برچسب قاب تعیین می‌شود. سپس این برچسب با برچسب واقعی قاب مقایسه می‌شود. درصد دقت بازشناسی قاب، از نسبت تعداد برچسب‌های درست تخمین زده شده به مجموع تعداد تمامی قاب‌ها محاسبه خواهد شد. در جدول (1) نتایج دقت بازشناسی قاب مدل‌های TMLP و MTMLP با استفاده از بردارهای بازنمایی ورودی MFCC بر روی مجموعه دادگان آزمون تمیز آورده شده است.

 

جدول (1): درصد دقت بازشناسی قاب با استفاده از مدل‌های TMLP و MTMLP بوسیله ویژگی‌های MFCC .

سایشی

انفجاری

شبه واکه

واکه

کل واجها

مدل

 

38/45

03/69

22/47

87/75

26/71

TMLP

42/69

75/47

56/55

02/78

27/72

MTMLP

 

آن‌گونه که از نتایج جدول 1 پیداست، با پیاده‌سازی مدل MTMLP، دقت بازشناسی قاب 27/72 درصد بر روی دادگان آزمون تمیز حاصل می‌شود که بازشناسی دقیقتری (حدود یک درصد) نسبت به مدل اولیه TMLP دربرداشته است. همچنین، مدل MTMLP به تخمین بهتر احتمالات پسین واج‌های با طول زمانی بلند (واکه‌ها، شبه‌واکه‌ها و سایشی‌ها) منجر شده است.

 

3-2- ترکیب اطلاعات به دست آمده از بردارهای بازنمایی‌ طیفی و کپستروم

استفاده همزمان از بردارهای ویژگی متمایز که حاوی اطلاعات متفاوتی از یک سیگنال هستند، می‌تواند به افزایش کارایی عملکرد سیستم‌های بازشناسی منجر شود [41-43]. در این بخش نشان خواهیم داد که چگونه ترکیب نتایج خروجی به دست آمده از شبکه‌های تعلیم یافته با بردارهای بازنمایی مبتنی بر طیف و کپستروم، به بهبود نتایج دقت بازشناسی قاب مدل بازشناس شبکه عصبی منجر می‌شود. برای این منظور مدل پیشنهادی MTMLP را علاوه بر بردارهای بازنمایی حوزه کپستروم (MFCC)، بر روی بردارهای بازنمایی حوزه طیف (LFBE) تعلیم می‌دهیم. البته، ساختار مدل شبکه عصبی برای ویژگی‌های LFBE به گونه‌ای انتخاب می‌شود که به تعداد پارامترهای مدل تعلیم یافته با ویژگی MFCC، پارامتر وزن وجود داشته باشد. از این‌رو، ساختار شبکه عصبی پیشنهادی این مدل برای ویژگی‌های حوزه طیف LFBE به صورت 19*(21*24)-19*(24*256)-256*90 طراحی شد. به این ترتیب، برای هر دو مدل شبکه عصبی، نسبت تعداد کل قاب‌های تعلیمی به تعداد کل وزن‌های مجهول شبکه، یکسان و برابر مقدار 3/6 خواهد بود (برای مناسب بودن خاصیت تعمیم‌پذیری و همچنین زمان آموزش مناسب شبکه، مقدار این نسبت باید بین 4 تا 10 باشد[44]). در جدول(2) نتایج دقت بازشناسی قاب مدل MTMLP با ویژگی‌های طیفی (LFBE19) آورده شده است.

 

جدول (2): درصد دقت بازشناسی قاب مدل MTMLP برای 13 ویژگی‌ MFCC و 19 ویژگی LFBE و همچنین مدل ترکیبی آن دو.

سایشی

انفجاری

شبه واکه

واکه

کل واجها

ویژگی مدل

 

42/69

75/47

56/55

02/78

27/72

MFCC13

74/72

90/53

23/63

41/78

17/74

LFBE19

66/74

09/56

80/63

13/81

38/76

ترکیبی

 

در جدول(2)، نتایج بازشناسی قاب مدل MTMLP با استفاده از ویژگی‌های کپستروم (MFCC13) و مدل ترکیبی آن دو نیز آورده شده است. مدل ترکیبی مورد استفاده (ترکیب در سطح خروجی)، متشکل از دو مدل تعلیم یافته MTMLP بر روی ویژگی‌های LFBE و MFCC است که در آن مقدار احتمال پسین برای هر قاب ورودی  از متوسط‌گیری مقادیر احتمالاتی نرمالیزه به دست آمده از لایه خروجی هر یک از شبکه‌های فوق حاصل شده است که در رابطه(1) آورده شده است.

(1)

 

با توجه به نتایج جدول 2، مدل بازشناس ترکیبی توانسته است برای تمامی کلاس‌های واجی، به بهبود دقت بازشناسی قاب (تشخیص دقیق‌تر احتمالات پسین) منجر شود. بهبود نتایج مدل ترکیبی نسبت به مدل با ویژگی‌های ورودی LFBE حدود 2/2 درصد و نسبت به مدل با ویژگی‌های ورودی MFCC حدود 1/4 درصد است.

 

4- آماده‌سازی ویژگی‌های استخراج شده

پیش از استفاده از مقادیر احتمالاتی پسین به دست آمده به عنوان ویژگی الگوی زمانی (TP) در ساختار TANDEM با مدل بازشناس HMM، باید یک­ سری تبدیلات مفید بر روی آنها اعمال شود. در ابتدا برای توزیع مناسبتر این مقادیر، مقدار میانگین هر بردار را صفر می‌نماییم. در مرحله بعد از تابع لگاریتم برای مقیاس کردن غیرخطی و تبدیل کسینوسی گسسته[20] (DCT) در جهت کاهش بُعد و غیرهمبسته نمودن آنها (که به همگونی بیشتر توزیع ویژگی‌های به دست آمده، با مدل‌های گوسی مورد استفاده در هر حالت مدل HMM منجر می‌شود) استفاده می‌نماییم [22]. در شکل (4) نحوه استخراج ویژگی الگوهای زمانی در روش پیشنهادی نشان داده شده است.

 

 

 

شکل (4): روش پیشنهادی برای استخراج ویژگی TP.

 

 

5- پیاده‌سازی آزمایش­ها و بحث و بررسی

در این بخش، با تعریف مجموعه بردار ویژگی‌های متمایز که هر یک به صورتی متمایز از ویژگی الگوهای زمانی (TP) به دست آمده استفاده می‌نمایند، سیستم‌های بازشناس HMMای را به­طور جداگانه تعلیم داده، سپس برای مقایسه میزان کارایی آنها، نتایج بازشناسی هر یک از بردارهای ویژگی را ارائه می‌نماییم. در جدول (3) بردار ویژگی‌های تشکیل شده برای هر سیستم شرح داده شده است. همچنین، در این جدول دو سیستم پایه HMM، حاوی ویژگی‌های متداول گفتاری MFCC و LFBE نیز تعریف شده‌اند که می‌توانند معیار مناسبی برای مقایسه نتایج بازشناسی با ویژگی‌های جدید معرفی شده باشند.

 

جدول (3): تعریف سیستم‌های بازشناس به همراه خصوصیات بردارهای ویژگی ورودی به آنها

 

نام سیستم

خصوصیات بردار ویژگی

M1

13 ویژگی استاتیک MFCC + مشتقات زمانی اول و دوم بردارهای ویژگی

M2

19 ویژگی استاتیک LFBE + مشتقات زمانی اول و دوم بردارهای ویژگی

M3

13 ویژگی استاتیک MFCC + مشتقات زمانی اول و دوم بردارهای ویژگی + 13 ویژگی الگوهای زمانی

M4

19 ویژگی استاتیک LFBE + مشتقات زمانی اول و دوم بردارهای ویژگی + 13 ویژگی الگوهای زمانی

M5

13 ویژگی استاتیک MFCC + مشتقات زمانی اول و دوم بردارهای ویژگی + 13 ویژگی الگوهای زمانی MFCC + 13 ویژگی الگوهای زمانی LFBE

M6

13 ویژگی استاتیک MFCC + مشتقات زمانی اول و دوم بردارهای ویژگی + 13 ویژگی الگوهای زمانی مدل های ترکیبی با ویژگی های MFCC و LFBE

در جدول (4) نیز نتایج درصد دقت بازشناسی واج از آزمون بازشناسی واج پیوسته متناظر با سیستم‌های بازشناس تعریف شده در جدول (3) آورده شده‌اند.

 

جدول (4): درصد دقت بازشناسی واج سیستم‌های جدول (3)

 

52

65

70

52

57

39

طول بردار ویژگی

M6

M5

M4

M3

M2

M1

سیستم

6/69

8/67

3/67

8/66

2/62

7/68

تمیز

نویز همهمه

6/62

4/60

2/59

3/58

6/50

9/60

SNR=20dB

3/47

1/44

1/40

6/42

7/25

4/43

SNR=10dB

3/19

6/13

3/12

4/16

0/10

4/19

SNR=0dB

نویز صورتی

3/66

4/64

1/63

0/63

0/56

5/63

SNR=20dB

3/56

8/53

9/48

2/53

2/35

6/47

SNR=10dB

3/38

1/33

7/30

6/36

5/21

1/25

SNR=0dB

نویز سفید

2/67

6/65

1/64

6/63

3/56

4/64

SNR=20dB

8/57

4/55

0/51

2/54

6/38

7/49

SNR=10dB

0/41

6/36

9/33

0/38

6/25

2/30

SNR=0dB

 

 

با توجه به نتایج جدول 4 سیستم M6 (روش پیشنهادی نهایی) برای اغلب شرایط تمیز و نویزی نسبت به دیگر سیستم‌ها، دقت بازشناسی واج بالاتری کسب کرده است. برای مثال، در شرایط تمیز، این سیستم به بهبود حدود یک درصدی نسبت به بردار ویژگی پایه مبتنی بر MFCC (سیستم M1) و همچنین بهبود 4/7 درصدی نسبت به بردار ویژگی مبتنی بر LFBE (سیستم M2) منجر شده است. در شرایط نویز شدید 0dB هم این روش نسبت به نتایج بردار ویژگی‌های MFCC (که بازشناسی نویزی بهتری نسبت به ویژگی‌های LFBE دارند) برای نویز صورتی بهبود 2/13 درصدی و در نویز سفید بهبود 8/10 درصدی به دست آورده است، اما در این شرایط (نویزی شدید)، بهبودی برای نویز همهمه (که یکی از سخت‌ترین شرایط نویزی در حوزه بازشناسی گفتار است) مشاهده نشده است. در مجموع، استفاده از ویژگی الگوی زمانی (TP) که حاوی اطلاعات دینامیک زمان‌بلندِ هر دنباله ویژگی است، به علت دربرداشتن اطلاعات متمایزکننده، بهبود نتایج بازشناسی را در پی داشته است. این بهبود درحالی به دست آمده که از ویژگی‌های دلتا و دلتادلتا بازنمایی (دینامیکِ زمان‌کوتاهِ بردار ویژگی‌ها) نیز در سیستم‌های مورد نظر استفاده شده است.

از طرفی دیگر، با توجه به نتایج به دست آمده در جداول (2) و (4)، اگرچه ویژگی‌های LFBE نسبت به ویژگی‌های MFCC بازشناسی قاب بیشتری با استفاده از مدل شبکه عصبی MTMLP داشتند، اما نتایج دقت بازشناسی واج کمتری با سیستم بازشناس HMM در پی خواهند داشت. ویژگی‌های MFCC با ویژگی‌های LFBE تنها در یک تبدیل DCT تفاوت دارند، بنابراین، استفاده از تبدیل DCT بر روی ویژگی‌های LFBE و تبدیل آنها به ویژگی‌های MFCC به بهبود بازشناسی منجر شده است، زیرا این تبدیل توانسته است ویژگی‌های اعمالی به مدل HMM را غیرهمبسته‌تر و در نتیجه تطابق بیشتری با فرض قطری بودن ماتریس کوواریانس مورد استفاده در هر عنصر گوسین مدل GMM در حالت‌‌های واجی HMM داشته باشد.

با مقایسه نتایج بازشناسی دو سیستم بازشناس M5 و M6 که به‌گونه‌ای متفاوت از اطلاعات الگوهای زمانی استفاده کرده‌اند، این نتیجه حاصل می‌شود که بیشتر از آن‌که الگوهای زمانی هر یک از بردار ویژگی‌های MFCC یا LFBE مفید باشند (سیستم M5)، ترکیب نتایج احتمالاتی پسین آن‌ دو (سیستم M6) به بهبود بازشناسی منجر خواهد شد. با بررسی جداگانه نتایج درصد دقت بازشناسی قاب برای هر واج با مدل شبکه عصبی MTMLP، دیده شد که برخی از واج‌ها با استفاده از ویژگی‌های MFCC (مانند واج‌های انفجاری /ب/ و /ت/ و انفجاری-سایشی /ج/ و مدل سکوت) و برخی دیگر با استفاده از ویژگی‌های LFBE (مانند واج‌های شبه‌واکه /ی/، /ر/، /ل/، /م/ و سایشی /ف/، /ز/ و /ژ/ ) بهتر تشخیص داده می‌شوند، اما با استفاده از مدل ترکیبی آن دو، درصد دقت بازشناسی قاب اغلب واج‌ها (خصوصاً واکه‌ها و سایشی‌ها) افزایش می‌یابد. از این‌رو، سیستم پیشنهادی M6 می‌تواند با داشتن اطلاعات متمایزتر (نشات گرفته از ویژگی الگوی زمانی)، نسبت به دیگر سیستم‌ها درصد دقت بازشناسی واج بالاتری کسب نماید.

برای بررسی هزینه محاسباتی و سرعت انجام پیاده‌سازی برای تولید بردار ویژگی از فاکتور زمان حقیقی[xxi] در بخش استخراج ویژگی (FE-RTF) استفاده شده است [45]. این فاکتور بیانگر نسبت زمان لازم برای پردازش یک فایل صوتی و تولید بردارهای ویژگی از آن به مدت زمان آن فایل صوتی است. در یک آزمون بر روی سیستم PC با مشخصات پردازنده 3GHz و حجم حافظه RAM برابر با 2G و با شرایط یکسان، سیستم پایه M1 مقدار FE-RTF=0.04 و روش پیشنهادی با سیستم M6 مقدار FE-RTF=0.10 به دست آمده است. بنابراین، هزینه محاسباتی در تولید بردار ویژگی در روش پیشنهادی حدود 5/2 برابر روش پایه و متداول MFCC است.

 

6- نتیجه‌گیری

در این مقاله به معرفی و بررسی ویژگی الگوی زمانی (TP) و ویژگی‌های مبتنی بر تخمین احتمالات پسین در کاربردهای بازشناسی گفتار پرداختیم. نشان داده شد که ویژگی الگوی زمانی بیانگر دینامیکِ زمان‌بلندِ هر دنباله ویژگی است و علاوه بر اثرهای مفید استفاده از ویژگی مشتقات زمانی بردارهای بازنمایی که بیانگر دینامیکِ زمان‌کوتاه بردارهای ویژگی است، بهبود بیشتری را در نتیجة بازشناسی به دست خواهند آورد.

در این جهت، ابتدا با پیشنهاد مدل بهبودیافته شبکه عصبی MTMLP، نتایج تشخیص احتمالات واجی مدل شبکه عصبی TMLP را بهبود دادیم. سپس با استفاده از تعریف مدلی ترکیبی، اطلاعات الگوهای زمانی به دست آمده از مجموعه بردارهای ویژگی MFCC و LFBE را ترکیب نمودیم و نشان دادیم با استفاده از این روش نیز تشخیص احتمالات واجی بهبود می‌یابد. در ادامه، با اعمال تبدیلات مناسب بر روی مقادیر احتمالات پسین خروجی از مدل بهینه شدة شبکه عصبی، ویژگی‌های به دست آمده را برای اعمال به سیستم بازشناس HMM (سیستم پیشنهادی M6) مهیا نمودیم. همچنین، نشان داده شد که با استفاده از ویژگی‌های جدید، نتایج بازشناسی بالاتری در اغلب شرایط تمیز و نویزی آزمون حاصل خواهند شد که نشان دهنده مقاوم به نویز بودن این روش است. این در حالی است که هزینه محاسباتی مربوط به روش استخراج ویژگی پیشنهادی 5/2 برابر روش استخراج ویژگی متداول MFCC است.

 



[1] Automatic Speech Recognition

[2] Temporal Patterns

[3] Posterior Probability

[4] Linear Discriminant Analysis

[5] Principal Component Analysis

[6] Hierarchical

[7] Short Time Frames

[8] Data-Driven Temporal Processing

[9] Multi Layer Perceptron

[10] States of Phoneme

[11] Mel-Frequency Cepstral Coefficients

[12] Logarithm Filter Bank Energy

[13] Non-linguistic

[14] Co-articulation

[15] Sparse

[16] Mean Square Error

[17] Segment

[18] Tonotopic Multi Layer Perceptron

[19] Tonotopic

[20] Discrete Cosine Transform

[xxi] Real Time Factor

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[1]          Lippmann, R., “Speech Perception by Humans and Machines”, Speech Communication, Vol. 22, No. 1, pp. 1-15, 1997.

[2]          Chulhee, L., “Optimizing Feature Extraction for Speech Recognition”, IEEE Trans. on Speech and Audio Processing, Vol. 11, No. 1, pp. 80-87, 2003.

[3]          Deng, L., “Processing of Acoustic Signals in a Cochlear Model Incorporating Laterally Coupled Suppressive Elements”, Journal of Neural Networks, Vol. 5, No. 1, pp. 19-34, 1992.

[4]          Drullman, R., Festen, J., Plomp, R., “Effect of Temporal Envelope Smearing on Speech Reception”, Journal of the Acoustical Society of America, Vol. 95, No. 2, pp. 2670-2680, 1994.

[5]          Allen, J.B., “Harvey Fletcher's Role in the Creation of Communication Acoustics”, Journal of the Acoustical Society of America, Vol. 99, No. 4, pp. 1825-1839, 1996.

[6]          Kandel, E., Essential of Neural System, Addison-Wesley Publishing Company, 1st Edition, 2002.

[7]          Hermansky, H., Sharma, S., “Temporal Patterns (TRAPS) in ASR of Noisy Speech”, In Proc. ICASSP, Arizona, USA, pp. 289-292, 1999.

[8]          Chen, B., Zhu, Q., Morgan, N., “Tonotopic Multi-Layer Perceptron, a Neural Network for Learning Long-term Temporal Features for Speech Recognition”, In Proc. ICASSP, USA, pp. 945-948, 2005.

[9]          Chen, B., Zhu, Q., Morgan, N., “Learning long-term Temporal Features in LVCSR using Neural Networks”, In Proc. ICSLP, Korea, pp. 612-615, 2004.

[10]          Okawa, S., Nakajima, T., Shirai, K., “A Recombination Strategy for multi-band Speech Recognition based on Mutual Information Criterion”, In Proc. Eurospeech, Budapest, Hungary, pp. 603-606, 1999.

[11]          Motlicek, P., Cernocky, J., “Time-domain based Temporal Processing with Application of Orthogonal Transformations”, In Proc. Eurospeech, Switzerland, pp. 821-824, 2003.

[12]          Athineos, M., Hermansky, H., Ellis, D., “LP-TRAP: Linear Predictive Temporal Patterns”, In Proc. ICSLP, Korea, pp. 1154-1157, 2004.

[13]          Hermansky, H., “TRAP-TANDEM: Data-driven Extraction of Temporal Features from Speech”, In Proc. IEEE ASRU, pp. 255-260, 2003.

[14]          Valente, F., Vepa, J., Plahl, C., Gollan, C., Hermansky, H., Schluter, R., “Hierarchical Neural Networks Feature Extraction for LVCSR System”, In Proc. InterSpeech, Belgium, pp. 42-45, 2007.

[15]          Chen, B.Y., Learning Discriminant Narrow band Temporal Patterns for Automatic Recognition of Conversational Telephone Speech, Ph.D. Thesis, University of California, Berkeley, USA, 2005.

[16]          Hermansky, H., Ellis, D.P., Sharma, S., “Tandem Connectionist Feature Extraction for Conventional HMM Systems”, In Proc. ICASSP, pp. 1635-1638, 2000.

[17]          Zhu, Q., Stolcke, A., Chen, B.Y., Morgan, N., “Using MLP Features in SRI's Conversational Speech Recognition System”, In Proc. InterSpeech, pp. 2141-2144, 2005.

[18]          Valente, F., “Multi-stream Speech Recognition based on Dempster–Shafer Combination Rule”, Speech Communication, Vol. 52, No. 3, pp. 213-222, 2010.

[19]          Kazemi, A.R., Sobhanmanesh, F., “MLP Refined Posterior Features for Noise Robust Phoneme Recognition”, Scientia Iranica, Trans. D: Computer Science & Engineering and Electrical Engineering, Vol. 18, No. 6, pp. 1443–1449, 2011.

[20]          Park, J., Diehl, F., Gales, M.J.F., Tomalin, M., Woodland, P.C., “The Efficient Incorporation of MLP Features into Automatic Speech Recognition Systems’, Computer Speech and Language, Vol. 25, No. 3, pp. 519–534, 2011.

[21]          Pinto, J., Garimella, S., Magimai-Doss, M., Hermansky, H., Bourlard, H., “Analysis of MLP-Based Hierarchical Phoneme Posterior Probability Estimator”, IEEE Trans. Audio Speech Language Processing, Vol. 19, No. 1, pp. 225-241, 2011.

[22]          Ikbal, S., Misra, H., Hermansky, H., Magimai, M., “Phase autocorrelation (PAC) Features for Noise Robust Speech Recognition”, Speech Communication, Vol. 54, No. 7, pp. 867–880, 2012.

[23]          Zhu, Q., Chen, B., Morgan, N., Stolcke, A., “On Using MLP Features in LVCSR”, In Proc. ICSLP, 2004.

[24]          Morgan, N., Chen, B.Y., Zhu, Q., Stolcke, A., “TRAPping Conversational Speech: Extending TRAP/Tandem Approaches to Conversational Telephone Speech Recognition”, In Proc. ICASSP, pp. 536–539, 2004.

[25]          Richard, M.D., Lippmann, R.P., “Neural Network Classifiers Estimate Bayesian a Posteriori Probabilities”, Neural computation, Vol. 3, No. 4, pp. 461-483, 1991.

[26]          Ikbal, S., Nonlinear Feature Transformations for Noise Robust Speech Recognition, Ph.D. Thesis, Institut de traitement des signaux (EPFL), Lausanne, Switzerland, 2004

[27]          Misra, H., Bourlard, H., Tyagi, V., “New Entropy based Combination Rrules In HMM/ANN Multi-stream ASR”, In Proc. ICASSP, pp. 741–744, 2003.

[28]          Ellis, D.P., Singh, R., Sivadas, S., “Tandem Acoustic Modeling in Large-vocabulary Recognition”, In Proc. ICASSP, Vol. 1, pp. 517-520, 2001.

[29]          Sivadas, S., Hermansky, H., “Hierarchical Tandem Feature Extraction”, In Proc. ICASSP, 2002.

[30]          Sainath, T.N., Ramabhadran, B., Nahamoo, D., Kanevsky, D., Sethy, A., “Sparse Representation Features for Speech Recognition”, In Proc. Interspeech, pp. 2254-2257, 2010.

[31]          Sivaram, G.S.V.S., Nemala, S.K., Elhilali, M., Tran, T.D., Hermansky, H., “Sparse Coding for Speech Recognition”, In Proc. ICASSP, pp. 4346-4349, 2010.

[32]          Sivaram, G.S.V.S., Hermansky, H., “Sparse Multilayer Perceptron for Phoneme Recognition”, IEEE Trans. Audio, Speech, and Language Processing, Vol. 20, No. 1, pp. 23-29, 2012.

[33]          Gemmeke, J.F., Virtanen, T., Hurmalainen, A., “Exemplar-based Sparse Representations for Noise Robust Automatic Speech Recognition”, IEEE Trans. Audio, Speech, and Language Processing, Vol. 19, No. 7, pp. 2067-2080, 2011.

[34]          White, H., “Learning in Artificial Neural Networks: A Statistical Perspective”, Neural Computation, Vol. 1, No. 4, pp. 425-464, 1989.

[35]          Zavaliagkos, G., Zhao, Y., Schwartz, R., Makhoul, J., “A Hybrid Segmental Neural net/hidden Markov Model System for Continuous Speech Recognition”, IEEE Trans. Speech Audio Processing, Vol. 2, No. 1, pp. 151-160, 1994.

[36]          Shekofteh, Y., Almasgnaj, F., “Improvement of Speech Recognition using Neural Net and Temporal Patterns”, In Proc. IKT2007, pp. 1-8, 2007.

[37]          Chen C., Bilmes J., “MVA Processing of Speech Features”, IEEE Trans. Speech and Audio Processing, Vol. 15, No. 1, pp. 257-270, 2007.

[38]          HTK (v.3.4), Hidden Markov Model Toolkit: <http://htk.eng.cam.ac.uk/>

[39]          Bijankhan, M., Sheikhzadegan, J., Roohani, M.R., Samareh, Y., Lucas, C., Tebyani, M. “FARSDAT-The Speech Database of Farsi Spoken Language”, In Proc. ACSST, Vol. 2, pp. 826-830, 1994.

[40]          NOISEX-92, SPIB noise data, Available from: http://spib.rice.edu/spib/select_noise.html.

[41]          Kittler, J., Hatef, M., Duin, R.P.W., Matas, J., “On Combining Classifiers”, IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 20, No. 4, pp. 226–239, 1998.

[42]          Nejadgholi, I., Seyyedsalehi, S.A., “Nonlinear Normalization of Input Patterns to Speaker Variability in Speech Recognition Neural Networks”, Neural Computing and Applications, Vol. 18, No. 1, pp. 45–55, 2009.

[43]          Shekofteh, Y., Almasganj, F., “Autoregressive Modeling of Speech Trajectory Transformed to the Reconstructed Phase Space for ASR Purposes”, Digital Signal Processing, Vol. 23, No. 6, pp. 1923-1932, 2013.

[44]          Vali, M., Seyyedsalehi, S.A., “Robust Recognition of Telephone Speech using Proper Feature Extraction of Reverse Neural Networks”, IJECE, Vol. 4, No. 1, pp. 21–29, 2008.

[45]          Shekofteh, Y., Almasganj, F., “Feature Extraction based on Speech Attractors in the Reconstructed Phase Space for Automatic Speech Recognition Systems”, ETRI Journal, Vol. 35, No. 1, pp. 100-108, 2013.