بهسازی گفتار تک‌کاناله با استفاده از ترکیب مدل قطعی نمایی و مدل تصادفی t Location-Scale

نویسندگان

1 دانشجوی کارشناسی ارشد، گروه مهندسی برق - دانشگاه بین‌المللی امام خمینی (ره) - قزوین - ایران

2 استادیار، گروه مهندسی برق - دانشگاه بین‌المللی امام خمینی (ره) - قزوین - ایران

چکیده

بیشتر روش‌های بهسازی گفتار، تخمینگری کاملاً متکی به مدل تصادفی گفتار ارائه می‌دهند. در این مقاله، یک تخمینگر کمترین میانگین مربعات خطا تحت یک مدل قطعی - تصادفی پیشنهاد می‌شود که در آن از یک توزیع دنباله - سنگین به نام(tls)  t location-scale برای مدل‌کردن ضرایب تبدیل فوریه گسسته گفتار تمیز و از مدل نمایی و سینوسی به‌عنوان مدل قطعی استفاده شده است. در مدل نمایی به‌کاررفته، تخمین فرکانس و ضریب میرایی به روش ماتریس پِنسِل انجام می‌شود. همچنین، در پژوهش‌های قبلی تعداد مؤلفه‌های نمایی در ساخت مدل قطعی برای بهسازی گفتار، یک در نظر گرفته شده است که در این مقاله، مدل نمایی به تعداد دلخواه مؤلفه‌های نمایی بسط داده می‌شود‌. پیاده‌سازی‌ها در سه حالت ترکیبی نمایی - گاوسی (روش پیشنهادی نخست)، نمایی - tls (روش پیشنهادی دوم)‌ و سینوسی - گاوسی انجام شده‌اند و با روش موجود نمایی – گاوسی (تنها با یک مؤلفة نمایی) و تخمینگرهای تصادفی وینر و مبتنی بر tls مقایسه می‌شوند. نتایج پیاده‌سازی در حضور شش نویز از مجموعه دادة نویز noisex-92 نشان می‌دهند که دو روش پیشنهادی در قیاس با روش‌های مبتنی بر مدل تصادفی صرف، به بهبود معیار نسبت سیگنال به نویز قطعه‌ای منجر شده‌اند و در ارزیابی ادراکی کیفیت گفتار عملکرد نسبتاً برابری دارند.

کلیدواژه‌ها


عنوان مقاله [English]

Single-channel Speech Enhancement using the Combination of Exponential Deterministic Model and t Location-scale Stochastic Model

نویسندگان [English]

  • zahra amini 1
  • Neda Faraji 2
1 MSc Student, Dept. of Electrical Engineering, Imam Khomeini International University, Qazvin, Iran
2 Assistant Professor, Dept. of Electrical Engineering, Imam Khomeini International University, Qazvin, Iran
چکیده [English]

Most speech enhancement algorithms focus on obtaining an estimator relying on stochastic models. In this paper, a minimum mean-square error (MMSE) estimator under a stochastic–deterministic model is proposed where a heavy-tail distribution called t-Location-Scale (tls) is used for modeling Discrete Fourier Transform coefficients of clean speech signals and exponential and sinusoidal models are employed as deterministic models. In the exponential model, the frequency and damping coefficient are estimated by using the Matrix Pencil method. Also, in previous studies, the number of exponential components in the deterministic model for stochastic-deterministic speech enhancement algorithm has been considered to be one. In this paper, the corresponding exponential model is developed to have an arbitrary number of exponential components. The speech enhancement experiments are performed in three modes, exponential-Gaussian (the first proposed method), exponential-tls (the second proposed method), and sinusoidal-Gaussian. Comparisons are made with the exponential-Gaussian method (with only one exponential component), as well as with the Weiner and tls stochastic estimators. The implementation results in the presence of six noise types from Noisex-92 dataset show that the two proposed methods improve the segSNR values and have quite similar PESQ values comparing with the stochastic based speech enhancement methods.

کلیدواژه‌ها [English]

  • Speech Enhancement
  • t Location-scale Probability Density Function
  • Wiener Filter
  • Minimum Mean Square Error
  • Exponential Deterministic Model
  • Sinusoidal Model

مقدمه
با رشد روزافزون استفاده از سیستم‌های گفتاری در کاربردهای علمی و روزمره، نیاز به حفظ کیفیت گفتار، امری اجتناب‌ناپذیر مطرح شده است. شرایط ایده‌آل و عاری از نویزی که در کارها و شبیه‌سازی‌های آزمایشگاهی در نظر گرفته می‌شوند، در بسیاری از کاربردهای واقعی به‌طور جدی نقض شده‌اند و برقراری آنها زیر سؤال می‌رود؛ ازاین‌رو، مبحث بهسازی گفتار، یکی از ضرورت‌های کاربردی و عملی، از زمینه‌های فعال تحقیقاتی در سال‌های اخیر بوده است.
بهسازی گفتار، فرایند بازیابی گفتار تمیز از سیگنال نویزی گفتار است و در مواردی به کار می‌رود که سیگنال گفتار از نویز، انعکاس یا سایر عوامل مخرب تأثیر گرفته است.
در سه دهه اخیر، استراتژی‌های مختلفی برای بهسازی گفتار در حضور نویز جمع‌شونده پیشنهاد شده‌اند ]1[. بیشتر این استراتژی‌ها از الگوریتم‌های بهسازی گفتار در حوزة فرکانس استفاده می‌کنند که باوجود پیچیدگی محاسباتی کمتر، نتایج بهبود کیفیت چشمگیری را به همراه دارند. روش متداول تفریق طیفی ]2[ که محاسبات ریاضی ساده دارد، فیلتر وینر و تغییرات آن مانند فیلترینگ تکراری وینر ]3[ از روش‌های بهسازی در حوزة فرکانس‌اند.
گروه دیگر از روش‌های بهسازی در حوزة فرکانس روش‌های مبتنی بر مدل آماری‌اند. در این روش‌ها عموماً از روش بیزین برای تخمین سیگنال بهبودیافته استفاده می‌شود. ازجمله روش‌های آماری متداول می‌توان به تخمینگر کمترین میانگین مربعات خطا (MMSE) ]2[، تخمینگر مبتنی بر لگاریتم کمترین میانگین مربعات خطا
(Log-MMSE) ]4[، بیشینة درست‌نمایی (ML) ]5[ و تخمینگر بیشینة احتمال پسین (MAP) ]6[ اشاره کرد.
تخمینگر کمترین میانگین مربعات خطا و بیشینة درست‌نمایی عمدتاً در حوزة تبدیل فوریه گسسته استفاده می‌شوند و با استفاده از این روش‌ها دامنه یا ضرایب مختلط تبدیل فوریه سیگنال گفتار از ضرایب مختلط تبدیل فوریه گسسته گفتار نویزی تخمین زده می‌شود.
در تخمینگرهای کمترین میانگین مربعات خطا، یک تابع هزینة استاندارد ریاضی یا یک معیار پذیرفتنی بهینه می‌شود تا یک تابع بهره غیرخطی برای اصلاح ضرایب تبدیل فوریه گسسته سیگنال نویزی به دست آید. برای پیداکردن تخمینگرهای کمترین میانگین مربعات خطا و بیشینة درست‌نمایی به دو تابع چگالی احتمال نیاز است؛ تابع چگالی احتمال پیشین (تابع چگالی احتمال سیگنال تمیز) و تابع چگالی احتمال سیگنال نویز.
با این فرض که ضرایب تبدیل فوریه گسسته سیگنال گفتار تمیز و نویز هر دو گاوسی‌اند، تخمینگر کمترین میانگین مربعات خطا به دست آمده است ]2[. در پژوهش‌های انجام‌شده دربارة تابع چگالی احتمال سیگنال گفتار تمیز در حوزة فرکانس و زمان، نشان داده شد که قسمت‌های حقیقی و موهومی ضرایب تبدیل فوریه گسسته سیگنال تمیز یک توزیع سوپرگاوسی دارند (یک قلة واضح‌تر و دنباله‌های سنگین در مقایسه با گاوسی) ]6[. تا به امروز عمدتاً فرض بر این بوده است که نویز دارای تابع چگالی احتمال گاوسی و سیگنال گفتار تمیز دارای تابع چگالی احتمال لاپلاس ]7[، گاما ]8[، گامای تعمیم‌یافته ]9[ و t location-scale ]10[ است. یک اصلاح دیگر برای بهبود الگوریتم‌های بهسازی گفتار مبتنی بر روش‌های آماری، در نظر گرفتن احتمال حضور (غیاب) گفتار است ]1[.
استفاده از مدل قطعی در روش‌های بهسازی گفتار نخستین‌بار در سال 1980 مطرح شد ]11[. در این مقاله، سیگنال گفتار تمیز با یک تابع نمایی با دامنه و فاز نامشخص نمایش داده شد. پس از آن در سال 1993، در چارچوب فیلتر وینر، یک الگوریتم بهسازی گفتار ارائه شد که هم‌زمان هر دو جزء گفتار قطعی و تصادفی را در نظر می‌گیرد ]12[. در این مقاله، سیگنال گفتار به دو بخش مصوت (بخش پریودیک سیگنال گفتار) و نامصوت (بخش غیرپریودیک سیگنال گفتار) تقسیم شد و قسمت مصوت گفتار با مدل قطعی و قسمت نامصوت گفتار نیز تصادفی در نظر گرفته شد. در سال 2007، هندریکس و همکارانش برای ضرایب تبدیل فوریه گفتار، مدل تصادفی یا قطعی در نظر گرفتند و سپس تخمین کمترین میانگین مربعات خطا را مبتنی بر هر دو تصمیم نرم و سخت در انتخاب بین دو مدل تصادفی و قطعی گفتار به دست آوردند ]13[؛ البته در مدل نویز به‌علاوة هارمونیک از سیگنال گفتار، ضرایب تبدیل فوریه سیگنال تمیز در هر لحظه از هر دو مدل تصادفی و قطعی پیروی می‌کنند که با یک توزیع با میانگین غیرصفر نمایش داده می‌شوند ]14[. مک‌کالوم و همکاران، این ایده را در سال 2012 استفاده کردند. در این مقاله بر خلاف کارهای پیشین که برای نویز یک مدل تصادفی در نظر می‌گرفتند، پژوهشگران یک مدل نویز تصادفی - قطعی در نظر گرفتند ]15[. در سال 2013 نیز مک‌کالوم و همکارانش یک الگوریتم بیزین تحت مدل گفتار تصادفی - قطعی با اطلاعات پیشین (استفاده از اطلاعات فریم قبلی برای تخمین فرکانس هر فریم) را پیشنهاد کردند. در این الگوریتم، میانگین توزیع غیرصفر در نظر گرفته می‌شود ]16[.
به‌تازگی نیز روش بهسازی مبتنی بر شبکة عصبی عمیق ارائه شده است که از داده‌های آموزشی برای یافتن نگاشت بین داده‌های گفتار نویزی و تمیز استفاده می‌کند ]17[.
در این مقاله، روش بهسازی گفتار مبتنی بر مدل قطعی - تصادفی تعمیم داده می‌شود که در ]13[ بیان شده است. در ]13[ از توزیع تصادفی گاوسی و لاپلاس به‌عنوان مدل تصادفی و از مدل نمایی به‌عنوان مدل قطعی استفاده کردند. در این مقاله از توزیع جدیدی به نام t location-scale به‌عنوان مدل تصادفی استفاده می‌شود. همچنین، مدل نمایی استفاده‌شده در ]13[، با افزایش پارامتر P و تغییر روش تخمین فرکانس تعمیم داده می‌شود.
ساختار مقالة حاضر به شرح زیر است: در بخش دوم، مقولة مدل‌سازی سیگنال گفتار با استفاده از مدل قطعی - نمایی به همراه روش‌های مختلف تخمین فرکانس و مقایسة آنها بررسی می‌شود. در بخش سوم، چند روش بهسازی گفتار تحت مدل تصادفی و مدل تصادفی - قطعی در حضور نویز جمع‌شونده معرفی می‌شوند. در بخش چهارم مقاله، روش پیشنهادی مطرح شده است. در بخش پنجم، روش‌های بهسازی گفتار پیشنهادشده با روش‌های پیشین در این حوزه مقایسه می‌شوند و در بخش پایانی، نتیجه‌گیری کلی از مقاله ارائه می‌شود.
مدل‌سازی سیگنال گفتار با استفاده از مدل قطعی نمایی
مدل قطعی نمایی یک سیگنال، شامل جمع P تابع تک فرکانس مختلط مطابق رابطة (1) است:
(1)

در این رابطه، اندیس نمونه‌های زمانی است و نیز به‌ترتیب دامنه، فاز، ضریب میرایی و فرکانس امین تابع فرکانس مختلط را نشان می‌دهند. روش‌های مختلفی برای تخمین پارامترهای فرکانس و ضریب میرایی وجود دارند. روش پرونی از ساده‌‌ترین روش‌هاست که با افزایش تعداد فرکانس‌‌های مدل، دقت پایین‌تری خواهد داشت ]18[. روش‌های مک‌براید ، ماتریس پِنسِل و حداقل مربعات کل در مراجع ]19[، ]20[ و ]21[، روش‌های مؤثر در تخمین فرکانس و ضریب میرایی معرفی شده‌اند. در این بخش، این سه روش در تعداد نمونه‌های مختلف از سیگنال، تعداد فرکانس‌های تخمینی و نسبت سیگنال به نویزهای مختلف (از صفر تا 40 دسی‌بل) با یکدیگر مقایسه می‌شوند. همچنین، برای مقایسة روش‌های مختلف تخمین فرکانس و ضریب میرایی از معیار میانگین قدر مطلق خطا به‌ترتیب مطابق با روابط (2) و (3) استفاده می‌شود.
(2)

(3)

در این دو رابطه، تعداد توابع نمایی در معادلة (1) و نیز به‌ترتیب فرکانس تخمینی، ضریب میرایی تخمینی، فرکانس واقعی و ضریب میرایی واقعی امین مؤلفة فرکانس مختلط را نشان می‌دهند.
سیگنال ورودی مطابق با رابطة (1) با فرکانس، ضریب میرایی، دامنه، فاز و تعداد نمونه‌های مختلف ساخته شده است و به هرکدام از روش‌های تخمین داده می‌شود. سپس مطابق با روابط (2) و (3) مقدار میانگین قدر مطلق خطای تخمین محاسبه می‌شود.
شکل (1) اثر تعداد فرکانس بر تخمین فرکانس و ضریب میرایی را وقتی تعداد نمونه‌ها برابر 500 است، در سه روش مک‌براید (StMcB)، ماتریس پِنسِل (MatPen) و حداقل مربعات کل (Total LS) نشان می‌دهد. در شکل (1.الف) و (1.ج)، به‌ترتیب خطای تخمین فرکانس و خطای تخمین ضریب میرایی، وقتی تعداد فرکانس‌ها 10 و در شکل (1.ب) و (1.د)، خطای تخمین فرکانس و خطای تخمین ضریب میرایی، وقتی تعداد فرکانس‌ها 20 باشد، نشان داده شده است. طبق این شکل با افزایش تعداد فرکانس، خطای تخمین در روش ماتریس پِنسِل کمتر از بقیه روش‌های تخمین است.
شکل (2) اثر تعداد نمونه‌ها بر تخمین فرکانس و ضریب میرایی را وقتی تعداد فرکانس‌ها برابر 20 است، در سه روش مک‌براید، ماتریس پِنسِل و حداقل مربعات کل نشان می‌دهد. در شکل (2.الف) و (2.ج)، به‌ترتیب خطای تخمین فرکانس و خطای تخمین ضریب میرایی، وقتی تعداد نمونه‌ها 500 و در شکل (2.ب) و (2.د)، خطای تخمین فرکانس و خطای تخمین ضریب میرایی، وقتی تعداد نمونه‌ها 1000 باشد، نشان داده شده است. مطابق این شکل، روش ماتریس پِنسِل با افزایش تعداد نمونه‌ها، به خطای تخمین کمتری در مقایسه با سایر روش‌ها منجر می‌شود. طبق مشاهدات مذکور که حاکی از قدرت روش ماتریس پنسل است، در بخش‌های بعدی برای تخمین فرکانس و ضریب میرایی از این روش استفاده می‌شود.

بهسازی گفتار در نویز جمع‌شونده مبتنی بر روش‌های تصادفی و قطعی - تصادفی
اگر سیگنال تمیز و نویز جمع‌شونده باشد، سیگنال نویزی طبق رابطة (4) به دست می‌آید:
(4)

با فرض ناهمبسته‌بودن نویز با سیگنال اصلی، در حوزة فوریه رابطة (5) برقرار است.


(ب) (الف)

(د) (ج)

شکل (1): بررسی اثر تعداد فرکانس‌ها بر خطای تخمین فرکانس و ضریب میرایی در روش‌های ماتریس پِنسِل (MatPen ،
مک‌براید (StMcB) و حداقل مربعات کل (Total LS) در 500 نمونه (الف): خطای تخمین فرکانس با 20 فرکانس، (ب): خطای تخمین فرکانس با 10 فرکانس، (ج): خطای تخمین ضریب میرایی با 20 فرکانس، (د): خطای تخمین ضریب میرایی با 10 فرکانس.

(ب) (الف)

(د) (ج)

شکل (2): بررسی اثر تعداد نمونه‌ها بر خطای تخمین فرکانس و ضریب میرایی در روش‌های ماتریس پِنسِل (MatPen)، مک‌براید (StMcB) و حداقل مربعات کل (Total LS) در 20 فرکانس (الف): خطای تخمین فرکانس با 1000 نمونه، (ب): خطای تخمین فرکانس با 500 نمونه، (ج): خطای تخمین ضریب میرایی با 1000 نمونه، (د): خطای تخمین ضریب میرایی با 500 نمونه.


(5)
، و به‌ترتیب تبدیل فوریه سیگنال نویزی، سیگنال تمیز و نویزند. و نیز به‌ترتیب نشان‌دهندة اندیس فرکانس و شماره فریم‌اند.

بهسازی گفتار با فرض مدل تصادفی برای گفتار
در این بخش، بهسازی گفتار با استفاده از معیار کمینة میانگین مربعات خطا و با فرض تابع چگالی احتمال گاوسی و t location-scale برای قسمت حقیقی و موهومی ضرایب فوریه زمان کوتاه سیگنال گفتار تمیز معرفی می‌شود. همچنین، فرض می‌شود قسمت حقیقی و موهومی ضرایب فوریه زمان کوتاه از هم مستقل‌اند و ضرایب فوریه زمان کوتاه برای سیگنال نویز نیز از توزیع گاوسی مختلط با میانگین صفر تبعیت می‌کند.

بهسازی با فرض مدل تصادفی گاوسی
تحت مدل تصادفی و استفاده از این فرض که ضرایب تبدیل فوریه گسسته سیگنال تمیز، توزیع مختلط گاوسی با میانگین صفر دارند، ضرایب تبدیل فوریه گسسته سیگنال نویزی، توزیع مختلط گاوسی با میانگین صفر خواهند داشت. سیگنال گفتار تمیز با رابطة (6) تخمین زده می‌شود ]2[:
(6)
مقدار سیگنال به نویز پیشین است که در بخش بعد روش تخمین آن توضیح داده می‌شود.

بهسازی با فرض مدل تصادفی
t location-scale
در این مدل فرض می‌شود ضرایب حقیقی و موهومی تبدیل فوریه زمان کوتاه سیگنال تمیز دارای توزیع t location-scale و ضرایب تبدیل فوریه زمان کوتاه سیگنال نویز دارای توزیع مختلط گاوسی با میانگین صفرند. تابع چگالی احتمال t location-scale برای متغیر تصادفی با درجه آزادی و میانگین صفر به‌صورت زیر تعریف می‌شود ]10[:
(7)
، نشان‌دهندة مقیاس، نشان‌دهندة تابع چگالی احتمال و تابع گاما است.
تحت مدل گفتار t location-scale، ضرایب مختلط تبدیل فوریه زمان کوتاه سیگنال گفتار تمیز، با ترکیب تخمین‌های قسمت‌های حقیقی و موهومی به فرم رابطة (8) تخمین زده می‌شوند ]10[:
(8)
در این رابطه، اندیس‌های R و I به‌ترتیب نشان‌دهندة قسمت حقیقی و موهومی‌اند و است. قسمت حقیقی طبق رابطة (9) تخمین زده می‌شود و جزء موهومی نیز طبق رابطة مشابه و با جایگزینی اندیس R با I به دست می‌آید]10[.
(9)
در این رابطه ψ(.) تابعTricomi's hypergeometric است و و به‌ترتیب نشان‌دهندة مقدار سیگنال به نویز پیشین و پسین در بین فرکانسی و فریم ام هستند که در ادامه تعریف می‌شوند.
(10)
در این رابطه، و به‌ترتیب واریانس گفتار تمیز و نویز را نشان می‌دهند. هرچند واریانس سیگنال گفتار تمیز در دسترس نیست، افرایم و همکارانش روش تصمیم‌گیری مستقیم (Decision-Directed) را برای محاسبة آن پیشنهاد دادند که مطابق با رابطة (۱۱) است ]1[:
(11)
ثابت هموارسازی است و عملگر قدر مطلق را نشان می‌دهد. ، یعنی مقدار سیگنال به نویز پسین در بین فرکانسی ام و فریم ام به‌راحتی با رابطة (12) محاسبه می‌شود:
(12)

بهسازی گفتار به روش قطعی - تصادفی
در این بخش، یک نمونه روش بهسازی گفتار تک‌کاناله با این فرض تشریح می‌شود که گفتار از هر دو مدل قطعی و تصادفی پیروی می‌کند ]13[.

تابع چگالی احتمال ضرایب تبدیل فوریه زمان کوتاه سیگنال نویزی در مدل‌های تصادفی و قطعی
مدل تصادفی گاوسی: تحت مدل تصادفی و استفاده از این فرض که ضرایب تبدیل فوریه گسسته سیگنال تمیز و نویز هر دو توزیع مختلط گاوسی با میانگین صفر دارند، قسمت حقیقی / موهومی ضرایب تبدیل فوریه گسسته سیگنال نویزی دارای توزیع گاوسی با میانگین صفر رابطة (13) است که برای سادگی، رابطه صرفاً برای قسمت حقیقی نوشته شده است.
(13)
در این رابطه، نشان‌دهندة سیگنال گفتار مبتنی بر مدل تصادفی است. همچنین، واریانس قسمت حقیقی ضرایب تبدیل فوریه گسسته سیگنال نویزی و برابر با جمع واریانس نویز و واریانس سیگنال تمیز است.
(14)
مدل قطعی: تحت مدل قطعی گفتار فرض می‌شود جمع متغیر قطعی و متغیر تصادفی است؛ بنابراین، با فرض توزیع گاوسی مختلط با میانگین صفر برای ضرایب تبدیل فوریه گسسته نویز، ضرایب تبدیل فوریه گسسته سیگنال نویزی، توزیع گاوسی با میانگین غیرصفر خواهد داشت.
(15)
در این رابطه، D نشان‌دهندة قطعی‌بودن مدل گفتار است. در این صورت و است.

تخمینگر کمترین میانگین مربعات خطا
مدل تصادفی گاوسی: تخمین سیگنال تمیز مطابق بخش 3-1-1 است.
مدل قطعی: تحت مدل قطعی گفتار، ضرایب تبدیل فوریه گفتار تمیز، معین اما ناشناخته فرض می‌شوند. به این معنی که و مقدار ضریب تبدیل فوریه گسسته سیگنال تمیز، معین و تابع ضربه است. پس تخمینگر کمترین میانگین مربعات خطا مطابق با رابطة (16) خواهد بود:
(16)
در این رابطه، است.

تخمین با استفاده از مدل قطعی
فرض می‌شود سیگنال تمیز گفتار با جمع تابع نمایی نزولی با فرکانس ثابت بازنمایی می‌شود:
(17)
نمونه‌ها‌ در حوزة زمان، اندیس نمونة زمانی، دامنه، فاز، ضریب میرایی و مؤلفة فرکانس ام است؛ درنتیجه، ضرایب تبدیل فوریه گسسته در هر بین فرکانسی با جمع تابع نمایی مختلط توصیف می‌شوند ]13[. بعد از شیفت و پنجره‌گذاری رابطة (18) به دست می‌آید:
(18)
پنجرة آنالیز به طول و مقدار شیفت هر فریم است. اکنون از سیگنال پنجره‌شده تبدیل فوریه گسسته گرفته می‌شود:
(19)
، اندازة تبدیل فوریه گسسته و اندیس فریم است. رابطة (19) به فرم نوشته می‌شود؛ با این فرض که است. حال اگر نویز در فریم‌های ایستان باشد و به اندازة کافی بزرگ انتخاب شود، نویز در بازة سفید خواهد بود ]13[.
برای تخمین و از روش ماتریس پِنسِل استفاده می‌شود که در بخش قبل، بهترین روش تخمین انتخاب شد. تخمین سیگنال گفتار تمیز در بین فرکانسی و فریم به‌صورت رابطة (20) است:
(20)
تخمین کمترین میانگین مربعات خطا تحت مدل قطعی - تصادفی گفتار
برای پیداکردن تخمینگر کمترین میانگین مربعات خطا تحت یک مدل ترکیبی قطعی - تصادفی گفتار، یک مدل کاملاً عمومی استفاده می‌شود که در آن تصمیم‌گیری براساس احتمال بین مدل قطعی و تصادفی صورت می‌گیرد و عدم قطعیت حضور گفتار نیز در نظر گرفته شده است. در این مدل ابتدا مجموعه معرفی می‌شود. ، و به‌ترتیب نشان‌دهندة حضورنداشتن گفتار، تولید گفتار با مدل قطعی و تولید گفتار با استفاده از مدل تصادفی است. تمام احتمالات در این بخش در بین فرکانسی و فریم صادق است که برای سادگی از نوشتن آن صرف نظر شده است.
برای پیداکردن تخمینگر بهینة کمترین میانگین مربعات خطا، ابتدا عبارت شرطی محاسبه می‌شود:
(21)
(22)

زمانی که است، خواهد بود. احتمال‌های شرطی و طبق قضیه بیز به‌صورت زیر محاسبه می‌شوند:
(23)
(24)
با فرض اینکه
(25)
(26)

جدول (1): مقادیر احتمال‌های پیشین طبق مرجع ]13[
مقدار احتمال پیشین نوع احتمال پیشین
021/0
22/0
759/0

در این معادلات، احتمال‌های و به‌ترتیب نشان‌دهندة احتمال‌های پیشین در زمانی است که بین فرکانسی گفتار معین، بین فرکانسی گفتار تصادفی و بین فرکانسی گفتار غایب‌اند (سکوت). برای محاسبة این احتمال‌ها فرض می‌شود برای یک گفتار انگلیسی متوسط دورة گفتار مصوت 78% از زمان است، فرکانس اساسی گفتار نیز بین ۵۰ و ۵۰۰ هرتز است و برای بیشتر صداهای مصوت گفتار انرژی گفتار عمدتاً تا حدود خواهد بود. حال احتمال‌ها مطابق رابطه‌های (27)، (28) و (29) محاسبه می‌شوند:
(27)
(28)
(29)

طول فریم است. برای فرکانس نمونه‌برداری ۱۶ کیلوهرتز، طول فریم ۴۸۰ نمونه و فرکانس اساسی ۳۰۰ هرتز مقادیر احتمال پیشین طبق جدول (1) به دست می‌آیند ]13[. در روابط (۲۵) و (۲۶) احتمال مطابق با رابطة (۳۰) است:
(30)
بلوک دیاگرام روش بهسازی به روش ترکیب مدل قطعی و تصادفی در شکل (۳) آمده است.

شکل (3): بلوک دیاگرام بهسازی گفتار با روش قطعی - تصادفی


روش پیشنهادی بهسازی با ترکیب مدل نمایی و مدل تصادفی t location-scale
در این مقاله، از توزیع تصادفی t location-scale به‌جای توزیع تصادفی گاوسی در ترکیب با مدل قطعی نمایی استفاده شده است. در این حالت، با توجه به گاوسی‌بودن نویز، روابط (۱۵) و (۳۰) به قوت خود باقی خواهند ماند و فقط رابطة با فرض توزیع جدید تغییر می‌کند که مطابق با رابطة (31) استخراج شده است:
(31)

همچنین، برای توصیف در رابطة (۱۵)، مدل نمایی تعمیم داده شده در بخش 3 به کار رفته است؛ با این تفاوت که از روش ماتریس پِنسِل برای تخمین فرکانس و ضریب میرایی استفاده شده و نیز برابر 40 در نظر گرفته شده است. با این فرضیات، سیگنال گفتار در مدل قطعی مطابق رابطة (32) تخمین زده می‌شود:
(3۲)
شبیه‌سازی و نتایج
در این بخش، ابتدا بهترین مدل قطعی برای ترکیب با مدل تصادفی در بهسازی گفتار بررسی شده است و سپس بهترین مدل قطعی انتخاب‌شده در ترکیب با تخمینگر کمینة میانگین مربعات خطا مبتنی بر مدل تصادفی
t location-scale برای بهسازی گفتار به کار می‌رود.

شکل (4): خطای تخمین در مدل‌های قطعی مختلف.

مقایسة مدل‌های قطعی مختلف در بهسازی گفتار قطعی - تصادفی
هدف در این بخش، پیداکردن بهترین مدل قطعی برای استفاده در روش بهسازی گفتار قطعی - تصادفی است. مدل قطعی را تخمین می‌زند که با فرض سیگنال گفتار قطعی، و طبق رابطة (1)، خواهد بود. برای مقایسة بهترین مدل، از رابطة (۳۳) استفاده می‌شود که میانگین زمانی مربعات خطای تخمین تبدیل فوریه زمان کوتاه سیگنال گفتار تمیز را محاسبه می‌کند:
(۳۳)
K تعداد بین فرکانسی، تعداد فریم‌ها و تبدیل فوریه زمان کوتاه سیگنال گفتار تمیز است. سه مدل قطعی بررسی‌شده در این مقاله، شامل مدل سینوسی (SIN_model)، مدل نمایی با پارامتر P=1 (R_EXP_model) و مدل نمایی با پارامتر P=40 (EXP_model) هستند.
در نخستین شبیه‌سازی، سیگنال گفتار یک دقیقه‌ای از دیتابیس TIMIT با فرکانس نمونه‌برداری 16 کیلوهرتز به کار رفته است ]22[. همچنین، طول فریم 480 نمونه‌‌ای با فریم شیفت 50%، تبدیل فوریه 2048 نقطه‌ای و نویز سفید در سیگنال به نویزهای مختلف استفاده شده است. مقدار در رابطة (32) نصف طول فریم، ، قرار داده شده است و و نیز از الگوریتم ماتریس پِنسِل تخمین زده می‌شوند. همان‌طور که در شکل (4) مشخص است، مدل پیشنهادی نمایی با پارامتر P=40، به لحاظ کمترین میانگین مربعات خطای تخمین، بهترین نتیجه را دارد.

مقایسة روش‌های‌‌ بهسازی گفتار با مدل‌های ترکیبی قطعی - تصادفی و مدل‌های تصادفی
در این بخش، الگوریتم بهسازی گفتار تحت مدل قطعی - تصادفی با سایر روش‌های بهسازی معمول مقایسه می‌شود که متکی به مدل تصادفی‌اند. برای ارزیابی نیز از معیارهای اندازه‌گیری ارزیابی ادراکی کیفیت گفتار (PESQ) و نسبت سیگنال به نویز قطعه‌ای (segSNR) طبق پارامترهای گفته‌شده در ]10[ استفاده می‌شود. داده‌های گفتاری بررسی‌شده در آزمایشات حدود شش دقیقه سیگنال از مجموعه دادگان TIMIT هستند که به‌صورت تصادفی از این پایگاه داده انتخاب شده‌اند و مشتمل بر 56 فایل صوتی از گویندگان مرد و 58 فایل صوتی از گویندگان خانم است ]22[. فرکانس نمونه‌برداری 16 کیلوهرتز، طول فریم 480 نمونه‌ با فریم شیفت 50%، تبدیل فوریه 2048 نقطه و نویزهای white، pink، volvo، F16، m109 و HF-channel از مجموعه دادگان نویز Noisex-92 برای آزمایش‌ها انتخاب شده‌اند ]23[. مقدار احتمال‌های اولیة ، و مطابق با جدول (1) مقداردهی می‌شوند. در رابطة (32) مقدار برابر نصف طول فریم، ، قرار داده شده است و و نیز از الگوریتم ماتریس پِنسِل تخمین زده می‌شوند. با توجه به اینکه در نسبت سیگنال به نویزهای پیشین پایین، تخمین فرکانس و ضریب میرایی از دقت کافی برخوردار نیست، در حالت صرفاً از مدل تصادفی در بهسازی استفاده می‌شود ]13[.


(الف)

(ب)
شکل (5): مقایسة عملکرد مدل تصادفی گاوسی و مدل ترکیبی گاوسی / قطعی برای بهسازی در حضور نویز سفید (الف) بهبود معیار segSNR نسبت به حالت نویزی، (ب) بهبود معیار PESQ نسبت به حالت نویزی.


همچنین، در تخمین ، ضریب هموارکنندگی و در نظر گرفته می‌شود. گفتنی است پارامترهای طول فریم، فریم شیفت و ، طبق مرجع ]13[ و پارامترهای ، و نیز با سعی و خطا برای دستیابی به عملکرد مناسب در بهسازی انتخاب شده‌اند.
روش‌های بهسازی گفتار مختلف در این مقاله با علائم اختصاری زیر معرفی می‌شوند. بهسازی گفتار تحت مدل تصادفی گاوسی با sto-g ]2[، بهسازی گفتار تحت مدل تصادفی t location-scale با sto-tls ]10[، بهسازی گفتار تحت مدل گاوسی - سینوسی با SD-sin-g، بهسازی گفتار تحت مدل گاوسی - نمایی هندریکس با پارامتر P=1 با SD-Rexp-g ]13[، بهسازی گفتار تحت مدل گاوسی - نمایی تعمیم‌یافته با P=40 با SD-exp-g (روش پیشنهادی نخست) و درنهایت، بهسازی گفتار با مدل
t location-scale – نمایی با پارامتر P=40 با SD-exp-tls (روش پیشنهادی دوم) نمایش داده می‌شوند.

مقایسة روش‌های بهسازی معرفی‌شده تحت نویز سفید
در شکل (5) عملکرد الگوریتم‌های SD-exp-g،
SD-sin-g، SD-Rexp-g و sto-g با هم مقایسه می‌شوند که همگی بر مبنای مدل تصادفی گاوسی‌اند. در این شکل، بهبود معیارهای segSNR و PESQ در حالتی بررسی می‌شود که سیگنال گفتار شش دقیقه‌ای با نویز سفید در سیگنال به نویز ورودی در رنج 5 تا 20 دسی‌بل آلوده شده است.
طبق شکل (5.الف)، ترکیب مدل نمایی تعمیم‌یافتة پیشنهادی با مدل تصادفی گاوسی، روش SD-exp-g، نسبت به روش بهسازی SD-Rexp-g به بهبود 3/0 دسی‌بلی در معیار segSNR منجر شده است. طبق شکل (5.ب)، الگوریتم SD-sin-g، بهبود 02/0 در معیار PESQ نسبت به الگوریتم SD-Rexp-g دارد. با توجه به اینکه معیار segSNR و PESQ را نمی‌توان هم‌زمان با هم بهتر کرد و همیشه یک چالش در بهبود هم‌زمان این دو معیار وجود دارد و البته بهبود معیار PESQ در الگوریتم
SD-sin-g کمتر از 03/0 است، در مجموع، روش
SD-exp-g روش بهتری نسبت به دو روش دیگر ارزیابی می‌شود. در آزمایش بعد، مدل قطعی که به کار می‌رود، مدل نمایی تعمیم‌یافتة پیشنهادی است که ترکیب آن با دو مدل تصادفی گاوسی و t location-scale بررسی می‌شود.
در شکل (6) و (7)، عملکرد الگوریتم SD-exp-tls (روش پیشنهادی دوم) به‌ازای ، با SD-exp-g (روش پیشنهادی نخست)، sto-g ]2[ و sto-tls ]10[ مقایسه می‌شود. معیار مقایسة الگوریتم‌ها، متوسط بهبود معیار segSNR و PESQ در شش نویز مختلف و در رنج SNRهای صفر تا 20 دسی‌بِل است. مطابق با شکل (6)، استفاده از مدل نمایی تعمیم‌یافتة پیشنهادی در ترکیب با مدل تصادفی گاوسی، یعنی روش SD-exp-g، به بهبود چشمگیری در معیار سیگنال به نویز قطعه‌ای نسبت به مدل sto-g منجر شده است که اهمیت ترکیب یک مدل قطعی مناسب با مدل تصادفی را در افزایش بازدهی بهسازی گفتار نشان می‌دهد. روش sto-tls صرفاً مبتنی بر یک مدل تصادفی است و از توزیع منطبق‌تری با داده‌های گفتار تمیز بهره می‌جوید؛ بنابراین، دقت درخور قیاسی با روش
SD-exp-g دارد و البته ترکیب مدل قطعی نمایی با آن، طبق روش پیشنهادی SD-exp-tls در برخی نویزها به بهبود در معیار سیگنال به نویز قطعه‌ای منجر شده است. در شکل (7) بهبودی معیار PESQ ارزیابی شده است که در مجموع، تفاوت چشمگیری بین انواع روش‌های بهسازی مشهود نیست و از این لحاظ روش‌ها می‌توانند با یکدیگر مقایسه شوند.



(الف) white (ب) volvo

(ج) HF-channel (د) m109

(ه) pink (و) F16
input SNR (dB) input SNR (dB)

شکل (6): بهبود معیار segSNR نسبت به حالت نویزی در روش مدل تصادفی گاوسی (sto-g)، مدل ترکیبی گاوسی - نمایی
(SD-exp-g)، مدل تصادفی t location-scale (sto-tls) و مدل ترکیبی t location-scale – نمایی (SD-exp-tls) برای بهسازی در حضور شش نویز ایستان از مجموعه داده‌های نویز Noisex-92.


(الف) white (ب) volvo

(ج) HF-channel (د) m109

(ه) pink (و) F16
input SNR (dB) input SNR (dB)

شکل (7): بهبود معیار PESQ نسبت به حالت نویزی در روش مدل تصادفی گاوسی (sto-g)، مدل ترکیبی گاوسی - نمایی (SD-exp-g)، مدل تصادفی t location-scale (sto-tls) و مدل ترکیبی t location-scale – نمایی (SD-exp-tls) برای بهسازی در حضور شش نویز ایستان از مجموعه داده‌های نویز Noisex-92.


در جدول (2) میزان کارایی متوسط چهار روش بهسازی نمایش داده شده که در شش نویز مختلف و پنج مقدار سیگنال به نویز به دست آمده است. مطابق با این جدول، روش ترکیبی گاوسی - نمایی (روش پیشنهادی نخست) در مجموع، موجب بهبود چشمگیری در حدود 9/0 دسی‌بل در معیار سیگنال به نویز قطعه‌ای شده است؛ البته بهبود حدود 1/0 دسی‌بلی روش ترکیب مدل نمایی با مدل تصادفی tls (روش پیشنهادی دوم) نسبت به مدل تصادفی صرف نیز مشهود است.

جدول (2): مقایسة عملکرد میانگین الگوریتم‌های sto-g، sto-tls، SD-exp-g و SD-exp-tls در حضور شش نویز مختلف از دادگان Noisex-92 و پنج مقدار سیگنال به نویز
متوسط بهبود معیار PESQ متوسط بهبود معیار segSNR (dB) الگوریتم
۴۸۶/۰ ۰۸/۶ sto-g
۴۹۹/۰ ۰۱/۷ SD-exp-g
(proposed 1)
۵۲/۰ ۰۹/۷ sto-tls
۵۲۱/۰ ۲۱/۷ SD-exp-tls
(proposed 2)
جدول (3): رتبة میانگین الگوریتم‌های sto-g، sto-tls، SD-exp-g و SD-exp-tls در حضور شش نویز مختلف از دادگان Noisex-92 و پنج مقدار سیگنال به نویز
معیار PESQ معیار segSNR الگوریتم
۸۳/2 ۸۶/3 sto-g
6۶/2 6۶/2 SD-exp-g
(proposed 1)
۴۶/1 ۱/2 sto-tls
۵۶/1 ۰۳/1 SD-exp-tls
(proposed 2)

تفاوت در معیار PESQ به‌طور متوسط حدود 01/0 تا 03/0 بوده است که از این لحاظ، روش‌ها تفاوت معناداری ندارند. برای بررسی علمی‌تر، تست فریدمن روی رتبة چهار روش بهسازی در 30 شرایط مختلف آزمایش، یعنی شش سیگنال نویز مختلف و پنج مقدار سیگنال به نویز اجرا شده است. رتبة متوسط روش‌ها در هر دو معیار segSNR و PESQ در جدول (3) نشان داده شده است. در تست فریدمن که با استفاده از تابع p=friedman(.) در نرم‌افزار MATLAB روی رتبة روش‌ها در نتایج سیگنال به نویز قطعه‌ای اجرا شده، مقدار p برابر با ۱۷-10 ×۷/۱ نشان‌دهندة تفاوت معنادار چهار روش به لحاظ آماری است. همچنین، برای تأیید مؤثربودن ترکیب مدل نمایی با مدل تصادفی تست فریدمن روی دوبه‌دوی روش‌ها انجام شده و مقدار p برابر با ۸-10 ×۳/۴ در مقایسة دو روش SD-exp-g و sto-g و نیز ۸-10 ×۳/۴ در مقایسة دو روش SD-exp-tls و sto-tls حاصل شده است. مقدار p کمتر از 01/0 نشان‌دهندة تفاوت معنادار روش‌های بهسازی ارزیابی‌شده و مؤثربودن ترکیب مدل نمایی تعمیم‌یافتة پیشنهادی در هر دو مدل تصادفی است. همچنین، انجام تست فریدمن روی دو مدل SD-exp-tls و SD-exp-g و حصول مقدار p برابر با ۷-10 ×۹/۸، کارایی بالاتر مدل تصادفی t location-scale را در مقابل مدل گاوسی در ترکیب با مدل نمایی پیشنهادی نشان می‌دهد. انجام تست فریدمن در معیار PESQ و مقدار p به‌دست‌آمده، تفاوت آماری معناداری را بین دوبه‌دوی روش‌ها به روال بالا نشان نداد؛ به این ترتیب، برابری نسبی میانگین رتبه‌های عملکرد دو روش sto-tls و SD-exp-tls (روش پیشنهادی دوم) و نیز sto-g و SD-exp-g (روش پیشنهادی نخست) طبق جدول (3)، کارایی‌نداشتن مدل ترکیبی قطعی - نمایی را در قیاس با مدل تصادفی صرف در بهبود معیار PESQ نشان می‌دهد.
نتیجه‌گیری
در این مقاله، یک روش نوین بهسازی گفتار در حالت تک‌کاناله با استفاده از ترکیب مدل قطعی نمایی و مدل تصادفی ارائه شد. روش پیشنهادشده، تعمیمی بر روش معرفی‌شدة هندریکس و همکارانش در سال 2007 است که از توزیع تصادفی گاوسی و لاپلاس به‌عنوان مدل تصادفی و از مدل نمایی به‌عنوان مدل قطعی استفاده کردند. در این مقاله از توزیع جدید t location-scale به‌عنوان مدل تصادفی استفاده شد و همچنین، مدل نمایی استفاده‌شده در مقالة هندریکس با افزایش پارامتر P و تغییر روش تخمین فرکانس از اسپِریت به ماتریس پِنسِل بهبود داده‌ شد. نتایج پیاده‌سازی در شش نویز مختلف نشان داد روش جدید ارائه‌شده، یعنی ترکیب مدل نمایی تعمیم‌یافته و مدل تصادفی t location-scale، به بهبود معیار segSNR می‌تواند منجر شود و کارایی درخور قیاسی را در معیار PESQ در مقایسه با روش‌های بهسازی دیگر نتیجه دهد.

[1] Y. Ephraim, D. Malah, “Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator”, IEEE Trans. on Acoust., Speech, Signal Process, Vol. 32, No. 6, pp. 1109–1121, Dec 1984.

[2] S. Boll, “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans. Acoust., Speech, Signal Process, Vol. 27, No. 2, pp. 113–120, Apr 1979.

[3] K. Funaki, “Speech enhancement based on iterative Wiener filter using complex speech analysis”, 16th European Signal Processing Conference, pp. 1–5, 25-29 Aug 2008.

[4] Y. Ephraim, D. Malah, “Speech enhancement using a minimum mean-square error log-spectral amplitude estimator”, IEEE Trans. Acoustic., Speech, Signal Process., Vol. 33, No. 2, pp. 443–445, May 1985.

[5] R.J. Macaulay, M.L. Malpass, “Speech enhancement using a soft decision noise suppression filter”, IEEE Trans. Acoustic., Speech, Signal Process, Vol. 28, No. 2, pp. 137–145, Apr 1980.

[6] T. Lotter, P. Vary, “Speech enhancement by MAP spectral amplitude estimation using a super-Gaussian speech model”, EURASIP Journal on Advances in Signal Processing, pp. 1110–1126, Dec 2005.

[7] B. Chen, P.C. Loizou, “A Laplacian-based MMSE estimator for speech enhancement”, Speech Communication., Vol. 49, No. 2, pp. 134–143, Feb 2007.

[8] R. Martin, “Speech enhancement based on minimum mean-square error estimation and super Gaussian priors”, IEEE Trans. Speech, Audio Process., Vol. 13, No. 5, pp. 845–856, Aug 2005.

[9] J.S. Erkelens, R.C. Hendriks, R. Heusdens, et al. , ”Minimum mean-square error estimation of discrete Fourier coefficients with generalized gamma priors”, IEEE Trans. Audio, Speech, Lang. Process., Vol. 15, No. 6, pp. 1741– 1752, July 2007.

[10] N. Faraji, A. Kohansal, “MMSE and maximum a posteriori estimators for speech enhancement in additive noise assuming a t-location-scale clean speech prior”, IET Signal Processing, Vol. 12, No. 4, pp. 532-543, June 2018.

[11] R. McAulay and M. Malpass, “Speech enhancement using a soft-decision noise suppression filter”, IEEE Trans. Acoust., Speech, Signal Process., Vol. 28, No. 2, pp. 137–145, Apr. 1980.

[12] J. Hardwick, C. Yoo, and J. Lim, “Speech enhancement using the dual excitation speech model”, in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Vol. 2, pp. 367–370, 27-30 Apr 1993.

[13] R. Hendriks, R. Heusdens, J. Jensen, “An MMSE estimator for speech enhancement under a combined stochastic-deterministic speech model”, IEEE Trans. Audio Speech Lang. Process., Vol. 15, No. 2, pp. 406–415, Jan 2007.

[14] J. Laroche, Y. Stylianou, and E. Moulines, “HNS: Speech modification based on a harmonic+noise model,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Vol. 2, pp. 550–553, 27-30 Apr 1993.

[15] M. C. McCallum and B. J. Guillemin, “Accounting for deterministic noise components in a MMSE STSA speech enhancement framework,” in Proc. 12th Int. Symp. Commun. Inf. Technol.,
pp. 174–179, 2-5 Oct 2012.

[16] M. McCallum, B. Guillemin, “Stochastic-deterministic MMSE STFT speech enhancement with general a priori information”, IEEE Trans. Audio, Speech, Lang. Process., Vol. 21, No. 7,
pp. 1445–1457, July 2013.

[17] Y. Du, J. Du, L.R. Dai, et al., “‘A regression approach to speech enhancement based on deep neural networks”, IEEE/ACM Trans. Audio Speech, Lang. Process., Vol. 23, No. 1, pp. 7–19, Jan 2015.

[18] J.G. Proakis, D.G. Manolakis, Digital Signal Processing: Principles, Algorithms and Applications, Prentice Hall, 3rd edition, 1995.

[19] K. Duda, T. P. Zielinski, “Efficiency of the frequency and damping estimation of a real value sinusoid,”, IEEE Instrumentation & Measurement Magazine, Vol. 16, No. 2, pp. 48–58, Apr 2013.

[20] T.K. Sarkar, O. Pereira, “Using the Matrix Pencil Method to Estimate the Parameters of a Sum of Complex Exponentials”, IEEE Antennas and Propagation Magazine, Vol. 37, No. 1, pp. 48-55, Feb 1995.

[21] T.K. Moon, W.C. Stirling, Mathematical Methods and Algorithms for Signal Processing, Pearson, PAP/CDR edition, 1999.

[22]  W.M. Fisher, G.R. Doddington, K.M. Goudie-Marshall, “The DARPA speech recognition research database: specifications and status”, in Proceedings of DARPA workshop on speech recognition,
pp. 93–99, 1986.

[23] A. Varga, and H.J.M. Steeneken, “Assessment for automatic speech recognition II: NOISEX-92: a database and an experiment to study the effect of additive noise on speech recognition systems”, Speech Communication, Vol. 12, No. 3, pp. 247-251, 1993.