Authors
1 MSc Student, Dept. of Electrical Engineering, Imam Khomeini International University, Qazvin, Iran
2 Assistant Professor, Dept. of Electrical Engineering, Imam Khomeini International University, Qazvin, Iran
Abstract
Keywords
مقدمه
با رشد روزافزون استفاده از سیستمهای گفتاری در کاربردهای علمی و روزمره، نیاز به حفظ کیفیت گفتار، امری اجتنابناپذیر مطرح شده است. شرایط ایدهآل و عاری از نویزی که در کارها و شبیهسازیهای آزمایشگاهی در نظر گرفته میشوند، در بسیاری از کاربردهای واقعی بهطور جدی نقض شدهاند و برقراری آنها زیر سؤال میرود؛ ازاینرو، مبحث بهسازی گفتار، یکی از ضرورتهای کاربردی و عملی، از زمینههای فعال تحقیقاتی در سالهای اخیر بوده است.
بهسازی گفتار، فرایند بازیابی گفتار تمیز از سیگنال نویزی گفتار است و در مواردی به کار میرود که سیگنال گفتار از نویز، انعکاس یا سایر عوامل مخرب تأثیر گرفته است.
در سه دهه اخیر، استراتژیهای مختلفی برای بهسازی گفتار در حضور نویز جمعشونده پیشنهاد شدهاند ]1[. بیشتر این استراتژیها از الگوریتمهای بهسازی گفتار در حوزة فرکانس استفاده میکنند که باوجود پیچیدگی محاسباتی کمتر، نتایج بهبود کیفیت چشمگیری را به همراه دارند. روش متداول تفریق طیفی ]2[ که محاسبات ریاضی ساده دارد، فیلتر وینر و تغییرات آن مانند فیلترینگ تکراری وینر ]3[ از روشهای بهسازی در حوزة فرکانساند.
گروه دیگر از روشهای بهسازی در حوزة فرکانس روشهای مبتنی بر مدل آماریاند. در این روشها عموماً از روش بیزین برای تخمین سیگنال بهبودیافته استفاده میشود. ازجمله روشهای آماری متداول میتوان به تخمینگر کمترین میانگین مربعات خطا (MMSE) ]2[، تخمینگر مبتنی بر لگاریتم کمترین میانگین مربعات خطا
(Log-MMSE) ]4[، بیشینة درستنمایی (ML) ]5[ و تخمینگر بیشینة احتمال پسین (MAP) ]6[ اشاره کرد.
تخمینگر کمترین میانگین مربعات خطا و بیشینة درستنمایی عمدتاً در حوزة تبدیل فوریه گسسته استفاده میشوند و با استفاده از این روشها دامنه یا ضرایب مختلط تبدیل فوریه سیگنال گفتار از ضرایب مختلط تبدیل فوریه گسسته گفتار نویزی تخمین زده میشود.
در تخمینگرهای کمترین میانگین مربعات خطا، یک تابع هزینة استاندارد ریاضی یا یک معیار پذیرفتنی بهینه میشود تا یک تابع بهره غیرخطی برای اصلاح ضرایب تبدیل فوریه گسسته سیگنال نویزی به دست آید. برای پیداکردن تخمینگرهای کمترین میانگین مربعات خطا و بیشینة درستنمایی به دو تابع چگالی احتمال نیاز است؛ تابع چگالی احتمال پیشین (تابع چگالی احتمال سیگنال تمیز) و تابع چگالی احتمال سیگنال نویز.
با این فرض که ضرایب تبدیل فوریه گسسته سیگنال گفتار تمیز و نویز هر دو گاوسیاند، تخمینگر کمترین میانگین مربعات خطا به دست آمده است ]2[. در پژوهشهای انجامشده دربارة تابع چگالی احتمال سیگنال گفتار تمیز در حوزة فرکانس و زمان، نشان داده شد که قسمتهای حقیقی و موهومی ضرایب تبدیل فوریه گسسته سیگنال تمیز یک توزیع سوپرگاوسی دارند (یک قلة واضحتر و دنبالههای سنگین در مقایسه با گاوسی) ]6[. تا به امروز عمدتاً فرض بر این بوده است که نویز دارای تابع چگالی احتمال گاوسی و سیگنال گفتار تمیز دارای تابع چگالی احتمال لاپلاس ]7[، گاما ]8[، گامای تعمیمیافته ]9[ و t location-scale ]10[ است. یک اصلاح دیگر برای بهبود الگوریتمهای بهسازی گفتار مبتنی بر روشهای آماری، در نظر گرفتن احتمال حضور (غیاب) گفتار است ]1[.
استفاده از مدل قطعی در روشهای بهسازی گفتار نخستینبار در سال 1980 مطرح شد ]11[. در این مقاله، سیگنال گفتار تمیز با یک تابع نمایی با دامنه و فاز نامشخص نمایش داده شد. پس از آن در سال 1993، در چارچوب فیلتر وینر، یک الگوریتم بهسازی گفتار ارائه شد که همزمان هر دو جزء گفتار قطعی و تصادفی را در نظر میگیرد ]12[. در این مقاله، سیگنال گفتار به دو بخش مصوت (بخش پریودیک سیگنال گفتار) و نامصوت (بخش غیرپریودیک سیگنال گفتار) تقسیم شد و قسمت مصوت گفتار با مدل قطعی و قسمت نامصوت گفتار نیز تصادفی در نظر گرفته شد. در سال 2007، هندریکس و همکارانش برای ضرایب تبدیل فوریه گفتار، مدل تصادفی یا قطعی در نظر گرفتند و سپس تخمین کمترین میانگین مربعات خطا را مبتنی بر هر دو تصمیم نرم و سخت در انتخاب بین دو مدل تصادفی و قطعی گفتار به دست آوردند ]13[؛ البته در مدل نویز بهعلاوة هارمونیک از سیگنال گفتار، ضرایب تبدیل فوریه سیگنال تمیز در هر لحظه از هر دو مدل تصادفی و قطعی پیروی میکنند که با یک توزیع با میانگین غیرصفر نمایش داده میشوند ]14[. مککالوم و همکاران، این ایده را در سال 2012 استفاده کردند. در این مقاله بر خلاف کارهای پیشین که برای نویز یک مدل تصادفی در نظر میگرفتند، پژوهشگران یک مدل نویز تصادفی - قطعی در نظر گرفتند ]15[. در سال 2013 نیز مککالوم و همکارانش یک الگوریتم بیزین تحت مدل گفتار تصادفی - قطعی با اطلاعات پیشین (استفاده از اطلاعات فریم قبلی برای تخمین فرکانس هر فریم) را پیشنهاد کردند. در این الگوریتم، میانگین توزیع غیرصفر در نظر گرفته میشود ]16[.
بهتازگی نیز روش بهسازی مبتنی بر شبکة عصبی عمیق ارائه شده است که از دادههای آموزشی برای یافتن نگاشت بین دادههای گفتار نویزی و تمیز استفاده میکند ]17[.
در این مقاله، روش بهسازی گفتار مبتنی بر مدل قطعی - تصادفی تعمیم داده میشود که در ]13[ بیان شده است. در ]13[ از توزیع تصادفی گاوسی و لاپلاس بهعنوان مدل تصادفی و از مدل نمایی بهعنوان مدل قطعی استفاده کردند. در این مقاله از توزیع جدیدی به نام t location-scale بهعنوان مدل تصادفی استفاده میشود. همچنین، مدل نمایی استفادهشده در ]13[، با افزایش پارامتر P و تغییر روش تخمین فرکانس تعمیم داده میشود.
ساختار مقالة حاضر به شرح زیر است: در بخش دوم، مقولة مدلسازی سیگنال گفتار با استفاده از مدل قطعی - نمایی به همراه روشهای مختلف تخمین فرکانس و مقایسة آنها بررسی میشود. در بخش سوم، چند روش بهسازی گفتار تحت مدل تصادفی و مدل تصادفی - قطعی در حضور نویز جمعشونده معرفی میشوند. در بخش چهارم مقاله، روش پیشنهادی مطرح شده است. در بخش پنجم، روشهای بهسازی گفتار پیشنهادشده با روشهای پیشین در این حوزه مقایسه میشوند و در بخش پایانی، نتیجهگیری کلی از مقاله ارائه میشود.
مدلسازی سیگنال گفتار با استفاده از مدل قطعی نمایی
مدل قطعی نمایی یک سیگنال، شامل جمع P تابع تک فرکانس مختلط مطابق رابطة (1) است:
(1)
در این رابطه، اندیس نمونههای زمانی است و نیز بهترتیب دامنه، فاز، ضریب میرایی و فرکانس امین تابع فرکانس مختلط را نشان میدهند. روشهای مختلفی برای تخمین پارامترهای فرکانس و ضریب میرایی وجود دارند. روش پرونی از سادهترین روشهاست که با افزایش تعداد فرکانسهای مدل، دقت پایینتری خواهد داشت ]18[. روشهای مکبراید ، ماتریس پِنسِل و حداقل مربعات کل در مراجع ]19[، ]20[ و ]21[، روشهای مؤثر در تخمین فرکانس و ضریب میرایی معرفی شدهاند. در این بخش، این سه روش در تعداد نمونههای مختلف از سیگنال، تعداد فرکانسهای تخمینی و نسبت سیگنال به نویزهای مختلف (از صفر تا 40 دسیبل) با یکدیگر مقایسه میشوند. همچنین، برای مقایسة روشهای مختلف تخمین فرکانس و ضریب میرایی از معیار میانگین قدر مطلق خطا بهترتیب مطابق با روابط (2) و (3) استفاده میشود.
(2)
(3)
در این دو رابطه، تعداد توابع نمایی در معادلة (1) و نیز بهترتیب فرکانس تخمینی، ضریب میرایی تخمینی، فرکانس واقعی و ضریب میرایی واقعی امین مؤلفة فرکانس مختلط را نشان میدهند.
سیگنال ورودی مطابق با رابطة (1) با فرکانس، ضریب میرایی، دامنه، فاز و تعداد نمونههای مختلف ساخته شده است و به هرکدام از روشهای تخمین داده میشود. سپس مطابق با روابط (2) و (3) مقدار میانگین قدر مطلق خطای تخمین محاسبه میشود.
شکل (1) اثر تعداد فرکانس بر تخمین فرکانس و ضریب میرایی را وقتی تعداد نمونهها برابر 500 است، در سه روش مکبراید (StMcB)، ماتریس پِنسِل (MatPen) و حداقل مربعات کل (Total LS) نشان میدهد. در شکل (1.الف) و (1.ج)، بهترتیب خطای تخمین فرکانس و خطای تخمین ضریب میرایی، وقتی تعداد فرکانسها 10 و در شکل (1.ب) و (1.د)، خطای تخمین فرکانس و خطای تخمین ضریب میرایی، وقتی تعداد فرکانسها 20 باشد، نشان داده شده است. طبق این شکل با افزایش تعداد فرکانس، خطای تخمین در روش ماتریس پِنسِل کمتر از بقیه روشهای تخمین است.
شکل (2) اثر تعداد نمونهها بر تخمین فرکانس و ضریب میرایی را وقتی تعداد فرکانسها برابر 20 است، در سه روش مکبراید، ماتریس پِنسِل و حداقل مربعات کل نشان میدهد. در شکل (2.الف) و (2.ج)، بهترتیب خطای تخمین فرکانس و خطای تخمین ضریب میرایی، وقتی تعداد نمونهها 500 و در شکل (2.ب) و (2.د)، خطای تخمین فرکانس و خطای تخمین ضریب میرایی، وقتی تعداد نمونهها 1000 باشد، نشان داده شده است. مطابق این شکل، روش ماتریس پِنسِل با افزایش تعداد نمونهها، به خطای تخمین کمتری در مقایسه با سایر روشها منجر میشود. طبق مشاهدات مذکور که حاکی از قدرت روش ماتریس پنسل است، در بخشهای بعدی برای تخمین فرکانس و ضریب میرایی از این روش استفاده میشود.
بهسازی گفتار در نویز جمعشونده مبتنی بر روشهای تصادفی و قطعی - تصادفی
اگر سیگنال تمیز و نویز جمعشونده باشد، سیگنال نویزی طبق رابطة (4) به دست میآید:
(4)
با فرض ناهمبستهبودن نویز با سیگنال اصلی، در حوزة فوریه رابطة (5) برقرار است.
(ب) (الف)
(د) (ج)
شکل (1): بررسی اثر تعداد فرکانسها بر خطای تخمین فرکانس و ضریب میرایی در روشهای ماتریس پِنسِل (MatPen ،
مکبراید (StMcB) و حداقل مربعات کل (Total LS) در 500 نمونه (الف): خطای تخمین فرکانس با 20 فرکانس، (ب): خطای تخمین فرکانس با 10 فرکانس، (ج): خطای تخمین ضریب میرایی با 20 فرکانس، (د): خطای تخمین ضریب میرایی با 10 فرکانس.
(ب) (الف)
(د) (ج)
شکل (2): بررسی اثر تعداد نمونهها بر خطای تخمین فرکانس و ضریب میرایی در روشهای ماتریس پِنسِل (MatPen)، مکبراید (StMcB) و حداقل مربعات کل (Total LS) در 20 فرکانس (الف): خطای تخمین فرکانس با 1000 نمونه، (ب): خطای تخمین فرکانس با 500 نمونه، (ج): خطای تخمین ضریب میرایی با 1000 نمونه، (د): خطای تخمین ضریب میرایی با 500 نمونه.
(5)
، و بهترتیب تبدیل فوریه سیگنال نویزی، سیگنال تمیز و نویزند. و نیز بهترتیب نشاندهندة اندیس فرکانس و شماره فریماند.
بهسازی گفتار با فرض مدل تصادفی برای گفتار
در این بخش، بهسازی گفتار با استفاده از معیار کمینة میانگین مربعات خطا و با فرض تابع چگالی احتمال گاوسی و t location-scale برای قسمت حقیقی و موهومی ضرایب فوریه زمان کوتاه سیگنال گفتار تمیز معرفی میشود. همچنین، فرض میشود قسمت حقیقی و موهومی ضرایب فوریه زمان کوتاه از هم مستقلاند و ضرایب فوریه زمان کوتاه برای سیگنال نویز نیز از توزیع گاوسی مختلط با میانگین صفر تبعیت میکند.
بهسازی با فرض مدل تصادفی گاوسی
تحت مدل تصادفی و استفاده از این فرض که ضرایب تبدیل فوریه گسسته سیگنال تمیز، توزیع مختلط گاوسی با میانگین صفر دارند، ضرایب تبدیل فوریه گسسته سیگنال نویزی، توزیع مختلط گاوسی با میانگین صفر خواهند داشت. سیگنال گفتار تمیز با رابطة (6) تخمین زده میشود ]2[:
(6)
مقدار سیگنال به نویز پیشین است که در بخش بعد روش تخمین آن توضیح داده میشود.
بهسازی با فرض مدل تصادفی
t location-scale
در این مدل فرض میشود ضرایب حقیقی و موهومی تبدیل فوریه زمان کوتاه سیگنال تمیز دارای توزیع t location-scale و ضرایب تبدیل فوریه زمان کوتاه سیگنال نویز دارای توزیع مختلط گاوسی با میانگین صفرند. تابع چگالی احتمال t location-scale برای متغیر تصادفی با درجه آزادی و میانگین صفر بهصورت زیر تعریف میشود ]10[:
(7)
، نشاندهندة مقیاس، نشاندهندة تابع چگالی احتمال و تابع گاما است.
تحت مدل گفتار t location-scale، ضرایب مختلط تبدیل فوریه زمان کوتاه سیگنال گفتار تمیز، با ترکیب تخمینهای قسمتهای حقیقی و موهومی به فرم رابطة (8) تخمین زده میشوند ]10[:
(8)
در این رابطه، اندیسهای R و I بهترتیب نشاندهندة قسمت حقیقی و موهومیاند و است. قسمت حقیقی طبق رابطة (9) تخمین زده میشود و جزء موهومی نیز طبق رابطة مشابه و با جایگزینی اندیس R با I به دست میآید]10[.
(9)
در این رابطه ψ(.) تابعTricomi's hypergeometric است و و بهترتیب نشاندهندة مقدار سیگنال به نویز پیشین و پسین در بین فرکانسی و فریم ام هستند که در ادامه تعریف میشوند.
(10)
در این رابطه، و بهترتیب واریانس گفتار تمیز و نویز را نشان میدهند. هرچند واریانس سیگنال گفتار تمیز در دسترس نیست، افرایم و همکارانش روش تصمیمگیری مستقیم (Decision-Directed) را برای محاسبة آن پیشنهاد دادند که مطابق با رابطة (۱۱) است ]1[:
(11)
ثابت هموارسازی است و عملگر قدر مطلق را نشان میدهد. ، یعنی مقدار سیگنال به نویز پسین در بین فرکانسی ام و فریم ام بهراحتی با رابطة (12) محاسبه میشود:
(12)
بهسازی گفتار به روش قطعی - تصادفی
در این بخش، یک نمونه روش بهسازی گفتار تککاناله با این فرض تشریح میشود که گفتار از هر دو مدل قطعی و تصادفی پیروی میکند ]13[.
تابع چگالی احتمال ضرایب تبدیل فوریه زمان کوتاه سیگنال نویزی در مدلهای تصادفی و قطعی
مدل تصادفی گاوسی: تحت مدل تصادفی و استفاده از این فرض که ضرایب تبدیل فوریه گسسته سیگنال تمیز و نویز هر دو توزیع مختلط گاوسی با میانگین صفر دارند، قسمت حقیقی / موهومی ضرایب تبدیل فوریه گسسته سیگنال نویزی دارای توزیع گاوسی با میانگین صفر رابطة (13) است که برای سادگی، رابطه صرفاً برای قسمت حقیقی نوشته شده است.
(13)
در این رابطه، نشاندهندة سیگنال گفتار مبتنی بر مدل تصادفی است. همچنین، واریانس قسمت حقیقی ضرایب تبدیل فوریه گسسته سیگنال نویزی و برابر با جمع واریانس نویز و واریانس سیگنال تمیز است.
(14)
مدل قطعی: تحت مدل قطعی گفتار فرض میشود جمع متغیر قطعی و متغیر تصادفی است؛ بنابراین، با فرض توزیع گاوسی مختلط با میانگین صفر برای ضرایب تبدیل فوریه گسسته نویز، ضرایب تبدیل فوریه گسسته سیگنال نویزی، توزیع گاوسی با میانگین غیرصفر خواهد داشت.
(15)
در این رابطه، D نشاندهندة قطعیبودن مدل گفتار است. در این صورت و است.
تخمینگر کمترین میانگین مربعات خطا
مدل تصادفی گاوسی: تخمین سیگنال تمیز مطابق بخش 3-1-1 است.
مدل قطعی: تحت مدل قطعی گفتار، ضرایب تبدیل فوریه گفتار تمیز، معین اما ناشناخته فرض میشوند. به این معنی که و مقدار ضریب تبدیل فوریه گسسته سیگنال تمیز، معین و تابع ضربه است. پس تخمینگر کمترین میانگین مربعات خطا مطابق با رابطة (16) خواهد بود:
(16)
در این رابطه، است.
تخمین با استفاده از مدل قطعی
فرض میشود سیگنال تمیز گفتار با جمع تابع نمایی نزولی با فرکانس ثابت بازنمایی میشود:
(17)
نمونهها در حوزة زمان، اندیس نمونة زمانی، دامنه، فاز، ضریب میرایی و مؤلفة فرکانس ام است؛ درنتیجه، ضرایب تبدیل فوریه گسسته در هر بین فرکانسی با جمع تابع نمایی مختلط توصیف میشوند ]13[. بعد از شیفت و پنجرهگذاری رابطة (18) به دست میآید:
(18)
پنجرة آنالیز به طول و مقدار شیفت هر فریم است. اکنون از سیگنال پنجرهشده تبدیل فوریه گسسته گرفته میشود:
(19)
، اندازة تبدیل فوریه گسسته و اندیس فریم است. رابطة (19) به فرم نوشته میشود؛ با این فرض که است. حال اگر نویز در فریمهای ایستان باشد و به اندازة کافی بزرگ انتخاب شود، نویز در بازة سفید خواهد بود ]13[.
برای تخمین و از روش ماتریس پِنسِل استفاده میشود که در بخش قبل، بهترین روش تخمین انتخاب شد. تخمین سیگنال گفتار تمیز در بین فرکانسی و فریم بهصورت رابطة (20) است:
(20)
تخمین کمترین میانگین مربعات خطا تحت مدل قطعی - تصادفی گفتار
برای پیداکردن تخمینگر کمترین میانگین مربعات خطا تحت یک مدل ترکیبی قطعی - تصادفی گفتار، یک مدل کاملاً عمومی استفاده میشود که در آن تصمیمگیری براساس احتمال بین مدل قطعی و تصادفی صورت میگیرد و عدم قطعیت حضور گفتار نیز در نظر گرفته شده است. در این مدل ابتدا مجموعه معرفی میشود. ، و بهترتیب نشاندهندة حضورنداشتن گفتار، تولید گفتار با مدل قطعی و تولید گفتار با استفاده از مدل تصادفی است. تمام احتمالات در این بخش در بین فرکانسی و فریم صادق است که برای سادگی از نوشتن آن صرف نظر شده است.
برای پیداکردن تخمینگر بهینة کمترین میانگین مربعات خطا، ابتدا عبارت شرطی محاسبه میشود:
(21)
(22)
زمانی که است، خواهد بود. احتمالهای شرطی و طبق قضیه بیز بهصورت زیر محاسبه میشوند:
(23)
(24)
با فرض اینکه
(25)
(26)
جدول (1): مقادیر احتمالهای پیشین طبق مرجع ]13[
مقدار احتمال پیشین نوع احتمال پیشین
021/0
22/0
759/0
در این معادلات، احتمالهای و بهترتیب نشاندهندة احتمالهای پیشین در زمانی است که بین فرکانسی گفتار معین، بین فرکانسی گفتار تصادفی و بین فرکانسی گفتار غایباند (سکوت). برای محاسبة این احتمالها فرض میشود برای یک گفتار انگلیسی متوسط دورة گفتار مصوت 78% از زمان است، فرکانس اساسی گفتار نیز بین ۵۰ و ۵۰۰ هرتز است و برای بیشتر صداهای مصوت گفتار انرژی گفتار عمدتاً تا حدود خواهد بود. حال احتمالها مطابق رابطههای (27)، (28) و (29) محاسبه میشوند:
(27)
(28)
(29)
طول فریم است. برای فرکانس نمونهبرداری ۱۶ کیلوهرتز، طول فریم ۴۸۰ نمونه و فرکانس اساسی ۳۰۰ هرتز مقادیر احتمال پیشین طبق جدول (1) به دست میآیند ]13[. در روابط (۲۵) و (۲۶) احتمال مطابق با رابطة (۳۰) است:
(30)
بلوک دیاگرام روش بهسازی به روش ترکیب مدل قطعی و تصادفی در شکل (۳) آمده است.
شکل (3): بلوک دیاگرام بهسازی گفتار با روش قطعی - تصادفی
روش پیشنهادی بهسازی با ترکیب مدل نمایی و مدل تصادفی t location-scale
در این مقاله، از توزیع تصادفی t location-scale بهجای توزیع تصادفی گاوسی در ترکیب با مدل قطعی نمایی استفاده شده است. در این حالت، با توجه به گاوسیبودن نویز، روابط (۱۵) و (۳۰) به قوت خود باقی خواهند ماند و فقط رابطة با فرض توزیع جدید تغییر میکند که مطابق با رابطة (31) استخراج شده است:
(31)
همچنین، برای توصیف در رابطة (۱۵)، مدل نمایی تعمیم داده شده در بخش 3 به کار رفته است؛ با این تفاوت که از روش ماتریس پِنسِل برای تخمین فرکانس و ضریب میرایی استفاده شده و نیز برابر 40 در نظر گرفته شده است. با این فرضیات، سیگنال گفتار در مدل قطعی مطابق رابطة (32) تخمین زده میشود:
(3۲)
شبیهسازی و نتایج
در این بخش، ابتدا بهترین مدل قطعی برای ترکیب با مدل تصادفی در بهسازی گفتار بررسی شده است و سپس بهترین مدل قطعی انتخابشده در ترکیب با تخمینگر کمینة میانگین مربعات خطا مبتنی بر مدل تصادفی
t location-scale برای بهسازی گفتار به کار میرود.
شکل (4): خطای تخمین در مدلهای قطعی مختلف.
مقایسة مدلهای قطعی مختلف در بهسازی گفتار قطعی - تصادفی
هدف در این بخش، پیداکردن بهترین مدل قطعی برای استفاده در روش بهسازی گفتار قطعی - تصادفی است. مدل قطعی را تخمین میزند که با فرض سیگنال گفتار قطعی، و طبق رابطة (1)، خواهد بود. برای مقایسة بهترین مدل، از رابطة (۳۳) استفاده میشود که میانگین زمانی مربعات خطای تخمین تبدیل فوریه زمان کوتاه سیگنال گفتار تمیز را محاسبه میکند:
(۳۳)
K تعداد بین فرکانسی، تعداد فریمها و تبدیل فوریه زمان کوتاه سیگنال گفتار تمیز است. سه مدل قطعی بررسیشده در این مقاله، شامل مدل سینوسی (SIN_model)، مدل نمایی با پارامتر P=1 (R_EXP_model) و مدل نمایی با پارامتر P=40 (EXP_model) هستند.
در نخستین شبیهسازی، سیگنال گفتار یک دقیقهای از دیتابیس TIMIT با فرکانس نمونهبرداری 16 کیلوهرتز به کار رفته است ]22[. همچنین، طول فریم 480 نمونهای با فریم شیفت 50%، تبدیل فوریه 2048 نقطهای و نویز سفید در سیگنال به نویزهای مختلف استفاده شده است. مقدار در رابطة (32) نصف طول فریم، ، قرار داده شده است و و نیز از الگوریتم ماتریس پِنسِل تخمین زده میشوند. همانطور که در شکل (4) مشخص است، مدل پیشنهادی نمایی با پارامتر P=40، به لحاظ کمترین میانگین مربعات خطای تخمین، بهترین نتیجه را دارد.
مقایسة روشهای بهسازی گفتار با مدلهای ترکیبی قطعی - تصادفی و مدلهای تصادفی
در این بخش، الگوریتم بهسازی گفتار تحت مدل قطعی - تصادفی با سایر روشهای بهسازی معمول مقایسه میشود که متکی به مدل تصادفیاند. برای ارزیابی نیز از معیارهای اندازهگیری ارزیابی ادراکی کیفیت گفتار (PESQ) و نسبت سیگنال به نویز قطعهای (segSNR) طبق پارامترهای گفتهشده در ]10[ استفاده میشود. دادههای گفتاری بررسیشده در آزمایشات حدود شش دقیقه سیگنال از مجموعه دادگان TIMIT هستند که بهصورت تصادفی از این پایگاه داده انتخاب شدهاند و مشتمل بر 56 فایل صوتی از گویندگان مرد و 58 فایل صوتی از گویندگان خانم است ]22[. فرکانس نمونهبرداری 16 کیلوهرتز، طول فریم 480 نمونه با فریم شیفت 50%، تبدیل فوریه 2048 نقطه و نویزهای white، pink، volvo، F16، m109 و HF-channel از مجموعه دادگان نویز Noisex-92 برای آزمایشها انتخاب شدهاند ]23[. مقدار احتمالهای اولیة ، و مطابق با جدول (1) مقداردهی میشوند. در رابطة (32) مقدار برابر نصف طول فریم، ، قرار داده شده است و و نیز از الگوریتم ماتریس پِنسِل تخمین زده میشوند. با توجه به اینکه در نسبت سیگنال به نویزهای پیشین پایین، تخمین فرکانس و ضریب میرایی از دقت کافی برخوردار نیست، در حالت صرفاً از مدل تصادفی در بهسازی استفاده میشود ]13[.
(الف)
(ب)
شکل (5): مقایسة عملکرد مدل تصادفی گاوسی و مدل ترکیبی گاوسی / قطعی برای بهسازی در حضور نویز سفید (الف) بهبود معیار segSNR نسبت به حالت نویزی، (ب) بهبود معیار PESQ نسبت به حالت نویزی.
همچنین، در تخمین ، ضریب هموارکنندگی و در نظر گرفته میشود. گفتنی است پارامترهای طول فریم، فریم شیفت و ، طبق مرجع ]13[ و پارامترهای ، و نیز با سعی و خطا برای دستیابی به عملکرد مناسب در بهسازی انتخاب شدهاند.
روشهای بهسازی گفتار مختلف در این مقاله با علائم اختصاری زیر معرفی میشوند. بهسازی گفتار تحت مدل تصادفی گاوسی با sto-g ]2[، بهسازی گفتار تحت مدل تصادفی t location-scale با sto-tls ]10[، بهسازی گفتار تحت مدل گاوسی - سینوسی با SD-sin-g، بهسازی گفتار تحت مدل گاوسی - نمایی هندریکس با پارامتر P=1 با SD-Rexp-g ]13[، بهسازی گفتار تحت مدل گاوسی - نمایی تعمیمیافته با P=40 با SD-exp-g (روش پیشنهادی نخست) و درنهایت، بهسازی گفتار با مدل
t location-scale – نمایی با پارامتر P=40 با SD-exp-tls (روش پیشنهادی دوم) نمایش داده میشوند.
مقایسة روشهای بهسازی معرفیشده تحت نویز سفید
در شکل (5) عملکرد الگوریتمهای SD-exp-g،
SD-sin-g، SD-Rexp-g و sto-g با هم مقایسه میشوند که همگی بر مبنای مدل تصادفی گاوسیاند. در این شکل، بهبود معیارهای segSNR و PESQ در حالتی بررسی میشود که سیگنال گفتار شش دقیقهای با نویز سفید در سیگنال به نویز ورودی در رنج 5 تا 20 دسیبل آلوده شده است.
طبق شکل (5.الف)، ترکیب مدل نمایی تعمیمیافتة پیشنهادی با مدل تصادفی گاوسی، روش SD-exp-g، نسبت به روش بهسازی SD-Rexp-g به بهبود 3/0 دسیبلی در معیار segSNR منجر شده است. طبق شکل (5.ب)، الگوریتم SD-sin-g، بهبود 02/0 در معیار PESQ نسبت به الگوریتم SD-Rexp-g دارد. با توجه به اینکه معیار segSNR و PESQ را نمیتوان همزمان با هم بهتر کرد و همیشه یک چالش در بهبود همزمان این دو معیار وجود دارد و البته بهبود معیار PESQ در الگوریتم
SD-sin-g کمتر از 03/0 است، در مجموع، روش
SD-exp-g روش بهتری نسبت به دو روش دیگر ارزیابی میشود. در آزمایش بعد، مدل قطعی که به کار میرود، مدل نمایی تعمیمیافتة پیشنهادی است که ترکیب آن با دو مدل تصادفی گاوسی و t location-scale بررسی میشود.
در شکل (6) و (7)، عملکرد الگوریتم SD-exp-tls (روش پیشنهادی دوم) بهازای ، با SD-exp-g (روش پیشنهادی نخست)، sto-g ]2[ و sto-tls ]10[ مقایسه میشود. معیار مقایسة الگوریتمها، متوسط بهبود معیار segSNR و PESQ در شش نویز مختلف و در رنج SNRهای صفر تا 20 دسیبِل است. مطابق با شکل (6)، استفاده از مدل نمایی تعمیمیافتة پیشنهادی در ترکیب با مدل تصادفی گاوسی، یعنی روش SD-exp-g، به بهبود چشمگیری در معیار سیگنال به نویز قطعهای نسبت به مدل sto-g منجر شده است که اهمیت ترکیب یک مدل قطعی مناسب با مدل تصادفی را در افزایش بازدهی بهسازی گفتار نشان میدهد. روش sto-tls صرفاً مبتنی بر یک مدل تصادفی است و از توزیع منطبقتری با دادههای گفتار تمیز بهره میجوید؛ بنابراین، دقت درخور قیاسی با روش
SD-exp-g دارد و البته ترکیب مدل قطعی نمایی با آن، طبق روش پیشنهادی SD-exp-tls در برخی نویزها به بهبود در معیار سیگنال به نویز قطعهای منجر شده است. در شکل (7) بهبودی معیار PESQ ارزیابی شده است که در مجموع، تفاوت چشمگیری بین انواع روشهای بهسازی مشهود نیست و از این لحاظ روشها میتوانند با یکدیگر مقایسه شوند.
(الف) white (ب) volvo
(ج) HF-channel (د) m109
(ه) pink (و) F16
input SNR (dB) input SNR (dB)
شکل (6): بهبود معیار segSNR نسبت به حالت نویزی در روش مدل تصادفی گاوسی (sto-g)، مدل ترکیبی گاوسی - نمایی
(SD-exp-g)، مدل تصادفی t location-scale (sto-tls) و مدل ترکیبی t location-scale – نمایی (SD-exp-tls) برای بهسازی در حضور شش نویز ایستان از مجموعه دادههای نویز Noisex-92.
(الف) white (ب) volvo
(ج) HF-channel (د) m109
(ه) pink (و) F16
input SNR (dB) input SNR (dB)
شکل (7): بهبود معیار PESQ نسبت به حالت نویزی در روش مدل تصادفی گاوسی (sto-g)، مدل ترکیبی گاوسی - نمایی (SD-exp-g)، مدل تصادفی t location-scale (sto-tls) و مدل ترکیبی t location-scale – نمایی (SD-exp-tls) برای بهسازی در حضور شش نویز ایستان از مجموعه دادههای نویز Noisex-92.
در جدول (2) میزان کارایی متوسط چهار روش بهسازی نمایش داده شده که در شش نویز مختلف و پنج مقدار سیگنال به نویز به دست آمده است. مطابق با این جدول، روش ترکیبی گاوسی - نمایی (روش پیشنهادی نخست) در مجموع، موجب بهبود چشمگیری در حدود 9/0 دسیبل در معیار سیگنال به نویز قطعهای شده است؛ البته بهبود حدود 1/0 دسیبلی روش ترکیب مدل نمایی با مدل تصادفی tls (روش پیشنهادی دوم) نسبت به مدل تصادفی صرف نیز مشهود است.
جدول (2): مقایسة عملکرد میانگین الگوریتمهای sto-g، sto-tls، SD-exp-g و SD-exp-tls در حضور شش نویز مختلف از دادگان Noisex-92 و پنج مقدار سیگنال به نویز
متوسط بهبود معیار PESQ متوسط بهبود معیار segSNR (dB) الگوریتم
۴۸۶/۰ ۰۸/۶ sto-g
۴۹۹/۰ ۰۱/۷ SD-exp-g
(proposed 1)
۵۲/۰ ۰۹/۷ sto-tls
۵۲۱/۰ ۲۱/۷ SD-exp-tls
(proposed 2)
جدول (3): رتبة میانگین الگوریتمهای sto-g، sto-tls، SD-exp-g و SD-exp-tls در حضور شش نویز مختلف از دادگان Noisex-92 و پنج مقدار سیگنال به نویز
معیار PESQ معیار segSNR الگوریتم
۸۳/2 ۸۶/3 sto-g
6۶/2 6۶/2 SD-exp-g
(proposed 1)
۴۶/1 ۱/2 sto-tls
۵۶/1 ۰۳/1 SD-exp-tls
(proposed 2)
تفاوت در معیار PESQ بهطور متوسط حدود 01/0 تا 03/0 بوده است که از این لحاظ، روشها تفاوت معناداری ندارند. برای بررسی علمیتر، تست فریدمن روی رتبة چهار روش بهسازی در 30 شرایط مختلف آزمایش، یعنی شش سیگنال نویز مختلف و پنج مقدار سیگنال به نویز اجرا شده است. رتبة متوسط روشها در هر دو معیار segSNR و PESQ در جدول (3) نشان داده شده است. در تست فریدمن که با استفاده از تابع p=friedman(.) در نرمافزار MATLAB روی رتبة روشها در نتایج سیگنال به نویز قطعهای اجرا شده، مقدار p برابر با ۱۷-10 ×۷/۱ نشاندهندة تفاوت معنادار چهار روش به لحاظ آماری است. همچنین، برای تأیید مؤثربودن ترکیب مدل نمایی با مدل تصادفی تست فریدمن روی دوبهدوی روشها انجام شده و مقدار p برابر با ۸-10 ×۳/۴ در مقایسة دو روش SD-exp-g و sto-g و نیز ۸-10 ×۳/۴ در مقایسة دو روش SD-exp-tls و sto-tls حاصل شده است. مقدار p کمتر از 01/0 نشاندهندة تفاوت معنادار روشهای بهسازی ارزیابیشده و مؤثربودن ترکیب مدل نمایی تعمیمیافتة پیشنهادی در هر دو مدل تصادفی است. همچنین، انجام تست فریدمن روی دو مدل SD-exp-tls و SD-exp-g و حصول مقدار p برابر با ۷-10 ×۹/۸، کارایی بالاتر مدل تصادفی t location-scale را در مقابل مدل گاوسی در ترکیب با مدل نمایی پیشنهادی نشان میدهد. انجام تست فریدمن در معیار PESQ و مقدار p بهدستآمده، تفاوت آماری معناداری را بین دوبهدوی روشها به روال بالا نشان نداد؛ به این ترتیب، برابری نسبی میانگین رتبههای عملکرد دو روش sto-tls و SD-exp-tls (روش پیشنهادی دوم) و نیز sto-g و SD-exp-g (روش پیشنهادی نخست) طبق جدول (3)، کارایینداشتن مدل ترکیبی قطعی - نمایی را در قیاس با مدل تصادفی صرف در بهبود معیار PESQ نشان میدهد.
نتیجهگیری
در این مقاله، یک روش نوین بهسازی گفتار در حالت تککاناله با استفاده از ترکیب مدل قطعی نمایی و مدل تصادفی ارائه شد. روش پیشنهادشده، تعمیمی بر روش معرفیشدة هندریکس و همکارانش در سال 2007 است که از توزیع تصادفی گاوسی و لاپلاس بهعنوان مدل تصادفی و از مدل نمایی بهعنوان مدل قطعی استفاده کردند. در این مقاله از توزیع جدید t location-scale بهعنوان مدل تصادفی استفاده شد و همچنین، مدل نمایی استفادهشده در مقالة هندریکس با افزایش پارامتر P و تغییر روش تخمین فرکانس از اسپِریت به ماتریس پِنسِل بهبود داده شد. نتایج پیادهسازی در شش نویز مختلف نشان داد روش جدید ارائهشده، یعنی ترکیب مدل نمایی تعمیمیافته و مدل تصادفی t location-scale، به بهبود معیار segSNR میتواند منجر شود و کارایی درخور قیاسی را در معیار PESQ در مقایسه با روشهای بهسازی دیگر نتیجه دهد.