Authors
School of Electrical and Computer, Shiraz University, Shiraz, Iran
Abstract
Keywords
هرچند که حرکت تدریجی بشر به سمت مکانیزه کردن هر چه بیشتر فعالیتهای مورد لزوم، از بسیاری جهات زندگی را برای وی سادهتر کرده، ولی از سوی دیگر مشکلات زیادی را برای وی به ارمغان آورده است. یکی از نتایج این زندگی ماشینی، فاصله گرفتن از محیط آرام، ساکت و دلنشین طبیعت و وارد شدن در محیطهای با آلودگیهای صوتی فراوان ناشی از حضور هزاران ماشین پرسر و صدا در اطراف وی است. در چنین شرایطی، یکی از مسائل فرارو، بویژه برای اپراتورهای دستگاهها که به شدت در معرض این آسیبهای صوتی هستند، کم کردن نویز صوتی محیط است. روش سنتی در کنترل صدای مزاحم استفاده از روشهای غیر فعال نظیر جاذبهای صوتی و محصور نمودن ناحیه[1, 2] مورد نظر است. این روشها ساده و در محدوده وسیعی از طیف فرکانسی کارا بوده، به صرف انرژی و نگهداری چندانی در طول عملکرد خود نیازی نداشته و در صورت عدم مشکل مکانیکی تا مدتها میتوانند به کار خود ادامه دهند، ولی در فرکانسهای پایین هزینهبر و گاهی به علت غیر متعارف شدن ابعاد جاذبها مؤثر نیستند.
پیشنهاد استفاده از روشهای فعال (ANC[1]) برای این موضوع سابقه نسبتاً دیرینی دارد و نخستین بار توسط Lueg در سال 1936 ارائه شده است[3]. هر چند این پیشنهاد در آن روز به دلیل عدم امکان پیادهسازی توسط تکنولوژی موجود به صورت عملی استفاده نشد، اما امروزه مقالات زیادی در این زمینه به چشم میخورند. اصول این روش بر پایه ایجاد سیگنالهایی الکترواکوستیک تحت کنترل استوار است که توسط یک مجموعه بلندگو به محیط اِعمال میگردند. در این سیستم، سیگنال ایجاد شده باید پس از گذر از محیط در ناحیه مورد نظر، سیگنالی حتیالمقدور با اندازه مساوی و البته با 180 درجه اختلاف فاز نسبت به نویز صوتی موجود تولید نماید که این فرایند در حالت ایدهآل، به ایجاد "ناحیهای ساکت[2] " در منطقه مورد نظر میانجامد. کاربردهای فراوانی نظیر کم کردن صدای موتور آسانسور در کابین آن[4]، کنترل صدای موتور در کابین وسیله نقلیه[5]، کاهش نویز انتقالی ازکانال یک سیستم تهویه مطبوع[6]، کاهش نویز صوتی پروانه یک قایق پرسرعت[7] و صدای داخل کابین[8]، کاهش صدای یک قایق دو موتوره[9]، یا بهبود کیفیت گوشی[10] از جمله موارد استفاده برای ANC است.
از طرف دیگر، یادگیری تقویتی یکی از روشهای شناخته شده در شاخه هوش مصنوعی و یادگیری ماشین است. این روش بهعلت سادگی و محاسبات اندک مورد نیاز برای آن، بسیار مورد علاقه محققان برای حل مسائل گوناگون قرار گرفته است. در این تحقیق، از این تکنیک برای حذف نویز به صورت فعال استفاده شده است. در روش پیشنهادی مساله یادگیری تقویتی به گونهای تعریف میگردد که سیستم با نگریستن به توان نویز صوتی، در طول زمان میآموزد که در هر حالت چگونه رفتاری از خود نشان دهد که نویز خروجی به بهترین صورت حذف گردد. این روش جزء روشهای هوشمند مبتنی بر پسخور است و تخمینی از دینامیک محیط لازم ندارد. بی نیاز بودن به مدل سازی محیط برای پیادهسازی این طریقه و مقاوم بودن آن در مقابل تغییرات در طول زمان، از مزیتهای اصلی این روش نسبت به روشهای شناخته شده نظیر FXLMS، است که شرح مختصری از آن در بخش سوم خواهد آمد.
در بخشهای آتی این مقاله مباحث به صورت زیر دنبال خواهند گردید: در بخش دوم به طور اجمالی مروری بر مفاهیم یادگیری تقویتی و بالاخص یادگیری به روش کیو صورت خواهد پذیرفت. مساله حذف نویز به صورت فعال و روشهای موجود در سومین بخش معرفی میگردند. در بخش چهارم ابتدا روشی اولیه مبتنی بر یادگیری تقویتی برای حذف نویز سیگنالهای باند باریک مرور خواهد گردید[11] و سپس با تغییراتی، روش به نحوی تکمیل میگردد که برای سیگنالهای چند آوایی باند باریک[3] نیز عملکرد مناسبی داشته باشد. در بخش پنجم دو روش برای سیگنالهای طیف گسترده ارائه گردیده و مزایا و معایب آن بررسی میشود. بخش ششم به شبیهسازی و بررسی نتایج آن تخصیص یافته و در آخرین بخش نتیجهگیری انجام خواهد پذیرفت.
روش یادگیری تقویتی، طبیعیترین روش یادگیری است و از طبیعت الهام گرفته شده است. یک حشره برای رسیدن به هدف خود، که میتواند غذایی لذیذ باشد، توسط یک سیستم خارجی آموزش نمیبیند و یا از بین راههای موجود از پیش تعیین شده همگی را امتحان نمیکند تا بهترین راه را برگزیند. حشره با حرکت در محیط و اخذ پاسخهای محیط، که می تواند شدت بوی غذای دلخواهش باشد، به سمت غذا حرکت مینماید. در این روش نه از کمک ناظر خارجی خبری است و نه مجموعه راهها و نتایج به دست آمده از قبل مشخص است تا کاربر بتواند با طبقهبندی آنها از طریق مشخصات استخراجی، بهترین راه را برگزیند، بلکه عامل[4] با تعامل[5] با محیط[6] و گرفتن پاداش[7] (یا منفی آن که اصلاح تنبیه[8] برای آن مناسبتر است) و بدان سیگنال تقویتی[9] نیز گفته می شود، فرایند یادگیری را تکمیل مینماید. در حقیقت، هدف یادگیری، چگونگی نسبت دادن یک عمل[10] به هر حالت[11] موجود، به گونهای است که یک سیگنال عددی را بیشینه نماید[12]. بیشترین مزیت حل با روش یادگیری تقویتی در ارتباط با سیستمهایی است که مدل سیستم به طور دقیق و کامل شناخته شده نیست و در آن عامل میخواهد با تعامل با محیط به یک سیاست بهینه[12] برسد. منظور از سیاست، همان روش عامل در انتخاب عمل در حالتهای مختلف است.
مشهورترین و شاید سادهترین روش یادگیری تقویتی روش یادگیری کیو (QL) است. QL جزو دستهبندی سیاست خاموش[13] و گروه تفاوت زمانی[14] است. این روش بر اساس ارزش عمل- حالت است که برای هر عمل و حالت در یک جدول به نام ذخیره شده است. در جدول مقدار مورد انتظار پاداش در طولانی مدت برای حالت و عمل ذخیره شده است .
مقادیر جدول برای کنترل رفتار عامل استفاده میشود. به عبارت دیگر، هنگامی که یک عامل در حالت قرار دارد، عملی را که دارای مقدار متناظر بیشتری در جدول است، با احتمال بیشتری انتخاب مینماید. بنابراین، تخمین مقادیر این جدول بسیار مهم بوده، بهبود تخمین مقادیر این جدول با فرمول بازگشتی زیر در هر گام زمانی صورت میپذیرد:
که در آن و حالت و عملی هستند که در t امین گام زمانی، سیستم در آن بوده است، نرخ تنزیل[15] و اعداد مثبتی بین صفر و یک هستند. نقش جلوگیری از رفتن پاداش نهایی به سمت بینهایت و بر نرخ یادگیری سیستم تاثیرگذار است. تعاریف دقیقتر و نقش هر کدام بحثهای بیشتری را میطلبد که از حوصله این مقاله خارج است و به مراجعه به منابع مرتبط خواهد نیاز داشت [12, 13].
ANC بر حسب نوع طیف فرکانسی سیگنال نویز صوتی میتواند به دستههای مختلفی تقسیم شود. در برخی از کاربردها نویز ورودی حاصل از یک عملیات تناوبی نظیر گردش یک چرخ و یا عملیات رفت و برگشت یک پیستون با فرکانس ثابت است. در این نوع مسائل توان نویز در یک فرکانس اصلی و سپس در هارمونیکهای تولید شده آن است. به این نوع سیگنال، سیگنال چند آوایی باند باریک گفته میشود. البته، حالت خاص که توان نویز در یک هارمونیک متمرکز شده است، به نام سیگنال باند باریک تک آوا شناخته میشود. در برخی دیگر از موارد، توان نویز در گسترهای از محدوده فرکانسی پخش شده است که به این نوع اخیر سیگنال طیف گسترده یا پهن باند[16] گفته میشود.
برای سیگنالهای باند باریک میتوان مدلی فرض نمود و کنترلکننده ANC میتواند با تغییر پارامترهای مدل متناسب با وضعیت، سیگنال با فاز معکوس را بازسازی نماید، اما اگر نویز تولید شده از منبع از نوع پهن باند باشد که نتوان مدل مناسبی برای آن یافت (برای مثال، اگر سیگنال تقریباً نویز سفید باشد) آنگاه برای یافتن سیگنال معکوس در ناحیه دلخواه باید علاوه بر سیگنال خطا، از منبع نویز نیز نمونهبرداری صورت پذیرد و با گذراندن آن از فیلتر مناسب، در نهایت در نقطه هدف سیگنالی معکوس با سیگنال رسیده شده از منبع نویز، تولید گردد. یکی از مشهورترین روشهای مورد استفاده در ANC روش FXLMS[17] است که بلوک دیاگرام آن در شکل (1) نشان داده شده است[14].
شکل (1): بلوک دیاگرام کنترل نویز با روش FXLMS[14]
این روش ابتدا توسط Burgess [15] برای ANC پیشنهاد داده شد که هدف اسلوب ارائه شده حذف نویز صوتی در نقطهای دلخواه از محیط است. این سیگنال که نمونۀ ام آن با نشان داده شده، در حقیقت تغییر یافته نویز تولید شده در منبع تولید نویز ( ) پس از گذر از محیط است. دینامیک این مسیر در محیط با نشان داده شده و اصطلاحاً بدان مسیر پیشرو[18] گفته میشود. در این تکنیک، از نویز در منبع تولید خود نمونه برداری شده و فیلتر وفقی به تدریج به گونهای تنظیم میشود که خروجی آن پس از گذر از محیط بتواند در ناحیه مد نظر، سیگنالی هم اندازه، اما با اختلاف فاز 180 درجه با سیگنال اولیه ایجاد نماید. دینامیک محیط از خروجی فیلتر وفقی به محیط با نشان داده شده و به دینامیک مسیر ثانویه[19] مشهور میباشد. اگر بردار پاسخ ضربه در امین گام با نشان داده شود که طول بردار ضربه و ، امین المان بردار ضربه در امین گام باشد، آن گاه میتوان اثبات نمود که برای کمینه نمودن حداقل مربعات خطا باید بردار توسط فرمول به روز گردد:
که ، امین نمونه خروجی نویز پس از گذر تابع تبدیل مدلسازی شده دینامیک مسیر ثانویه ( ) برای تعریف بردار به صورت و یک عدد مثبت برای به عنوان گام پیشروی و نیز نمونه ام سیگنال پسخور است.
همانگونه که از رابطه و شکل (1) مشخص است، از ملزومات این روش داشتن مدلی از مسیر ثانویه ( ) است. به همین منظور، در اکثر کاربردها این تخمین با مدلسازی مسئله به صورت برونخط[20] محاسبه میگردد[5] و هنگام اجرای متد با فرض نامتغیر بودن دینامیک از این مدل ثابت استفاده میگردد، اما در برخی از کاربردها سیستم به صورت وفقی در هر گام تخمین زده شده و از مقدار تخمین زده شده برای کنترل نویز استفاده میگردد. در روش اول، در زمان اجرا زمانی برای تخمین کانال صرف نمیگردد و در نتیجه بار محاسباتی کمتری برای اجرا لازم دارد، ولی برخلاف روش دوم از مزایای وفقی بودن استفاده نمینماید. بنابراین، با تغییر مدل محیط در طول عملکرد و یا خطا در مدلسازی بازدهی نهایی کاهش مییابد.
در این بخش مروری بر یک روش ارائهشده مبتنی بر یادگیری تقویتی برای حذف نویز سیگنالهای باند باریک صورت خواهد پذیرفت[11] و سپس با ارائه پیشنهادهایی روش به نحوی تکمیل میگردد که برای سیگنالهای چند آوایی باند باریک[21] با تعداد هارمونیک بالا نیز عملکرد مناسبی داشته باشد.
استفاده از یادگیری تقویتی با روش QL برای حذف نویز صوتی ابتدا در سال 2012 توسط رئیسی و گلبهار[11] ارائه شد که علیرغم نوآوری و مزایایی که در پی داشت، با افزایش تعداد هارمونیک با چالشهایی روبهرو میگردید. در ادامه، روش پیشنهادی و مشکلات آن مورد بحث قرار میگیرد.
شکل (2) بلوک دیاگرام این روش را که با استفاده از یک کنترلکننده QL شکل گرفته است، نشان میدهد. این سیستم در حالت کامل شده برای حذف نویز یک سیگنال تناوبی با M هارمونیک پیشنهاد گردیده است. کنترلکننده پیشنهادی برای این کار، دارای 2M متغیر و به صورت رابطه تعریف میگردد.
هدف در این مسئله، یافتن مقادیر تا است، به گونهای که سیگنالهای تولیدشده در رابطه بتوانند پس از گذر از دینامیک مسیر ثانویه، نویز موجود در محیط در ناحیه ساکت را خنثی کند و توان سیگنال صوتی در آن ناحیه را به سمت صفر ببرد.
شکل(2): حذف نویز برای سیگنالهای باند باریک با QL.
با توجه به اینکه روش یادگیری تقویتی برای این منظور انتخاب شده، لذا تعریف متغیر حالت، عملهای قابل قبول و مشخص نمودن سیگنال تقویتی یا پاداش از مراحل کار هستند.
برای تعریف متغیر حالت میتوان از مقدار عددی شده پارامترهای تا استفاده نمود. لذا تابع برای نسبت دادن یک عدد به حالت سیستم، برای سیگنال باند باریک با هارمونیک، به صورت تعریف گردیده است.
که تابع وظیفه کوانیزه کردن از مقدار حداقل تا حداکثر ممکن خود، به عدد 0 تا را بر عهده دارد. به سادگی این موضوع قابل بررسی است که تابع مقداری صحیح، بین 1 تا را به حالت سیستم نسبت خواهد داد.
در گام بعدی عملگرهای و به منظور افزایش و کاهش پارامتر خود به اندازه انتخاب شده (به شرطی که از محدوده مجاز خود خارج نشود) و برای بدون تغییر ماندن همه پارامترها معرفی میگردند. با کمک تعاریف فوق مجموعه که نشاندهنده اعمال مجاز در حالت دلخواه است، با عضو با ضابطه تعریف میگردد.
احتمال انتخاب عمل بین اعمال فوق در حالت بسته به مقدار متناظر آن برای هر عمل در جدول و بر طبق متد ε- حریصانه[22][12] است و نحوه بهروز آوری جدول Q مطابق فرمول مشهور QL به صورت رابطه است.
تنها کمیت باقیمانده تعریف سیگنال پاداش است. روش QL سعی در بیشینه کردن تابع پاداش خود در طولانی مدت را دارد. بنابراین، با توجه به هدف سیستم که کاهش توان نویز در ناحیه ساکت است، منفی توان سیگنال در محیط به عنوان پاداش در نظر گرفته میشود. با این تعریف بیشینه کردن پاداش، معادل صفر نمودن توان نویز در خروجی و یا ساکت بودن مطلق ناحیه مورد نظر خواهد گردید. اگر دورۀ تناوب زمانی اِعمال[23] فرمان با نشان داده شود، آنگاه در بازه زمانی بین و سیگنال پاداش با نشان دادهشده و به صورت رابطه تعریف میگردد.
هرچند با تعریف کنترلکننده QL، متغیر حالت و مجموعه اعمال و سیگنال پاداش تعریف مسئله کامل گردید اما در اجرا روش مشکلاتی را خواهد داشت که ذیلاً بدان پرداخته میگردد.
روش QL بر اساس تخمین جدول و سپس تصمیمگیری انجام عمل بر اساس آن است. تعداد اعضای این جدول در روش پیشنهادی به صورت رابطه ؛ یعنی ضرب تعداد حالات مجاز در تعداد اعمال مجاز در هر حالت، محاسبه خواهد گردید.
که تابعی است که تعداد اعضای آرگومان را مییابد و M تعداد هارمونیک و N تعداد سطوح عددی شدن هر مؤلفه است همانگونه که مشاهده میشود، تعداد المانهای این جدول با بالا رفتن تعداد هارمونیکها به صورت نمایی افزایش مییابند که این افزایش، مشکلات خود زیر را در پی خواهد داشت:
الف) با بالاتر رفتن تعداد هارمونیکها تعداد حافظه مورد نیاز برای جدول به شدت افزایش مییابد؛ به گونهای که در بیش از دو و حداکثر سه هارمونیک تأمین آن به سختی ممکن است و یا هزینه کلی را به صورت غیرقابل قبولی افزایش میدهد.
ب) علاوه بر مشکلات سختافزاری و هزینه تمامشده، با افزایش تعداد المانها جدول Q مشکل عمدهتری بروز مینماید و آن زمان یادگیری سیستم است. این کمیت با تعداد المانها رابطه هم جهتی دارد و در نتیجه با افزایش تعداد، زمان یادگیری هم افزایش مییابد.
در ادامه، برای رفع مشکلات روشی ارائه میگردد که نتیجه کار در آن به کاهش کلی حافظه مورد نیاز و زمان یادگیری منجر خواهد گردد.
آنچه در رابطه باعث افزایش تعداد مورد لزوم حافظه مورد نیاز میگردد، رابطه نمایی خروجی با تعداد هارمونیک (M) است. روشی که برای این حل معضل پیشنهاد میگردد، از نظر اصول بسیار با الگوریتم تقسیم و غلبه[24] [16] مشابهت دارد. در این شیوه، مسئلهای که دارای ابعاد بزرگ است، ابتدا به دو یا چند مسئله کوچکتر و مشابه تقسیمشده و اگر حل مسئلههای کوچکتر امکانپذیر باشد آنگاه، با تجمیع جوابهای به دست آمده، جواب نهایی به دست خواهد آمد. معمولاً نخستین نتیجه این الگوریتم کاهش ابعاد و محاسبات مسئله اولیه است. دیاگرام شکل (3) نیز بر این اساس برای حذف نویز پیشنهاد گردیده است.
این روش در اصول ANC از آنچه در بخش قبل آمده بود، تبعیت مینماید؛ یعنی نویز صوتی ( )، پس از گذر از دینامیک مسیر اولیه ( )، به ناحیهای که باید ساکت گردد، میرسد. وظیفه کنترلکننده QL طراحیشده نیز تولید سیگنالی است (y(n)) که پس از گذر از دینامیک مسیر ثانویه ( )، در ناحیه ساکت، سیگنالی هم اندازه اما با اختلاف فاز 180 درجه به گونهای ایجاد نماید که برایند مجموع ( ) در ناحیه ساکت به سمت صفر برود. آنچه باعث تفاوت روش شده، شکست تنها کنترلکننده یادگیری تقویتی حالت قبل، به کنترلکننده در مسیرهای موازی است که وظیفه هر مسیر، کاهش توان نویز تنها در یک هارمونیک است. با قرار دادن در رابطه تعداد اعضای جدول مسیر ام، که آن را با نشان خواهیم داد، خواهد گردید. به این ترتیب، تعداد کل اعضا برای جدول در مسیرهای موازی مجموعاً به دست خواهد آمد که تغییر حالت نمایی ذکرشده در رابطه به حالت خطی فعلی دستاورد قابلملاحظهای است.
کنترلکننده QL در مسیر فرضی ام که تنها وظیفه حذف یک هارمونیک را بر عهده دارد با نشان دادهشده و توسط رابطه تعریف میگردد:
بلوکهای تا در شکل (3) نمایانگر عملکرد یادگیری تقویتی در یک مسیر است. در این شکل در مسیر ام توان هارمونیک مربوطه به عنوان سیگنال تقویتی به بلوک واردشده که منفی آن، سیگنال پاداش را تشکیل میدهد. این کنترل کننده بر طبق مقادیر جدول حالت – عمل متناظر ( )، به گونهای اعمال مناسب را انتخاب مینماید که مقادیر و در رابطه ، برای حذف نویز در فرکانس متناظر تنظیم شوند. در ضمن، در هر گام با استفاده از رابطه مقادیر نیز بهروز میگردند.
|
شکل (3): بلوک دیاگرام کلی شکستن مسئله به بلوکهای کوچکتر |
بلوکهای تا در شکل (3) نیز نحوه یافتن توان سیگنال خروجی در فرکانس متناظر را نشان میدهد. بدین منظور، به راحتی میتوان اثبات نمود که پس از ضرب سیگنال خطا در دو مؤلفه عمود بر هم سینوسی و کسینوسی با فرکانس مناسب و گذر از یک فیلتر پایین گذر(LPF[25]) توان مد نظر یافته میشود.
استفاده از این روش مزایای دیگری را هم در پی خواهد داشت، زیرا کم شدن تعداد المانها باعث بهبود زمان یادگیری نیز میگردد. علاوه بر آن، استفاده از بلوکهای مشابه در ساختار که بار محاسباتی کمی بر دوش دارند، باعث میشود که امکان پیادهسازی سیستم با سیستمهای ارزانقیمت مشابه و موازی وجود خواهد داشت که ساخت و خطایابی سیستم را بسیار سادهتر خواهد نمود و در نتیجه مزیت مناسبی در قیمت تمامشده درپی خواهد داشت.
انتخاب متغیر ، که در تعریف عملگرهای و وظیفه کاهش و افزایش مقدار متغیر حالت را بر عهده دارد، تأثیر بسزایی در رفتار سیستم خواهد داشت. در صورتی که این متغیر بزرگ در نظر گرفته شود، با کوچک شدن توان سیگنال خروجی ( ) و قابلمقایسه شدن آن با مقدار حذف نویز متوقف میگردد. در مقابل، به ازای کوچک شدن مقدار زمان همگرایی روش افزایش مییابد. لذا نکته دیگری که میتواند در بهبود روش کمک کند، تغییر گام، متناسب با توان سیگنال خروجی است. با توجه به استدلالهای فوق، AQL-ANC[26] با روش بیانشده در بخش 4-2 و با انتخاب متغیر به صورت وفقی مطابق رابطه ، به عنوان نسخه کامل شده ارائه میگردد.
|
|
همانگونه که در بخش 3 ذکر گردید، اکثر روشهای پایه برای حذف نویز طیف گسترده، باید تخمین مناسبی از دینامیک مسیر ثانویه داشته باشند. هرچند که دینامیک مسیر ثانویه، نسبت به مسیر پیشرو معمولاً تحت کنترل و دارای ثبات نسبی مناسبی است، اما دلایل مختلفی نظیر گذشت زمان و یا عوامل محیطی میتواند بر آن تأثیر گذاشته و اختلافی بین دینامیک تخمین زدهشده و دینامیک واقعی به وجود آید. این اختلاف به کاهش راندمان و یا در بعضی موارد حاد به ناپایداری منجر خواهد گردید. استفاده از تکنیکهای هوشمند نظیر یادگیری تقویتی میتواند در رفع این نقیصه کمک نماید. بدین منظور، در شکل (4) سیستمی به صورت بلوک دیاگرامی پیشنهاد شده است. اکثر توضیحات و متغیرهای مرتبط با شکل (1) برای این شکل نیز صادق است با این تفاوت که تنظیم فیلتر وفقی، که در این شکل با نشان داده شده است، بر عهده یک کنترلکننده مبتنی بر یادگیری Q است. با تعریف صحیح مسئله یادگیری تقویتی برای آن، این کنترلکننده با نگاه کردن به سیگنال خطا، میتواند یاد بگیرد که در هر موقعیت چه عملی را انجام دهد که نتیجه عمل به حذف نویز از محیط منجر شود. پاداشی که برای کنترل کردن نویز در نظر گرفته شده است، از جنس منفی توان است که حداکثر آن در توان صفر اتفاق خواهد افتاد و با بیشینه کردن آن نویز در محیط حذف میگردد.
شکل (4): استفاده از QL در تخمین فیلتر مناسب برای حذف نویز
آنچه که این طریقه پیشنهادی را نسبت به روشهای وفقی نظیر MSE[27] یا LMS متمایز و ارجح میسازد موضوع حساسیت نداشتن به عدم تراز زمانی بین خطا و پروسه تنظیم است. به عبارت دیگر، هنگامی که تنظیم پارامتر بر روی صورت میپذیرد، اثر آن پس از گذر از در خروجی ظاهر میگردد که در نظر نگرفتن این دینامیک باعث ناپایداری میگردد. روشهایی نظیر FXLMS یا FXRLS[28] نیز با فرض دانستن دینامیک ثانویه بر این مشکل فائق میآیند[14]. اما در روش یادگیری تقویتی ذات روش بر اساس تخمین پاداش در آینده است و چنین انتظار میرود که اعمالی که پاداش در آینده را بیشینه میکنند را به خوبی یاد بگیرد. اما آنچه در این مسیر مشکل ایجاد مینماید مشکل ابعاد میباشد که در بخش 4-1 نیز به مورد مشابه آن برخورد گردید. در مسئله اخیر نیز اگر تنها سیگنال پاداش منفی توان کل در نظر گرفته شود، که باید به وسیله آن کلیه عناصر فیلتر یافته شود ابعاد مسئله به حدی افزایش مییابد که امکان حل آن وجود نخواهد داشت.
برای حل این معضل مشابه حالت قبل، از تکنیک تقسیم و غلبه در حوزه فرکانس استفاده میگردد؛ به گونهای که هر بلوک با عمل در محدوده خاص فرکانسی، سعی در کاهش توان در همان محدوده را خواهد داشت. در شکل (5-الف) ساختاری کلی برای این کار پیشنهاد شده است. هدف نهایی از این ساختار یافتن در حوزه فرکانس است. اگر سیگنال صوتی خروجی و فیلتر در حوزه فرکانس را با و نشان دهیم، نمونههای حوزه فرکانس آنها در فواصل ثابت اعدادی موهومی هستند. با دانستن موضوع فوق پارامتر موهومی و اعداد حقیقی و به صورت و تعریف میگردند. هدف در هر مسیر موازی، کاهش مقدار و ابزار در دسترس، تغییر در و است. البته، لازم نیست این عملیات در تمام فضای فرکانسی صورت پذیرد و در قسمتهای فرکانس بالا که سیگنالی وجود ندارد، مقادیر متناظر ورودی IFFT اهمیتی ندارد و میتوان با مقدار دلخواهی نظیر صفر جایگزین گردند که در شکل (5-الف) نیز به همین منظور مقادیر تا در ورودی IFFT با صفر جایگزین گردیدهاند.
الف) بلوک دیاگرام کلی سیستم |
ب) نمایش امین بلوک QL |
شکل (5): انتقال سیگنال خطا به حوزه فرکانس برای شکستن مسئله به بلوکهای کوچکتر |
نکته قابلذکر دیگر اینکه هرچند که در شکل (5-الف) از تبدیلهای فوریه سریع (FFT[29]) و معکوس آن (IFFT[30]) به عنوان نمایندههایی برای تبدیل به فضای فرکانس و یا بازگشت از آن استفاده شده است، اما تبدیلهایی نظیر تبدیل گسسته کسینوسی[31] [17] و تبدیل گسسته هارتلی[32][18] به جهت پیادهسازی سادهتر و برای اینکار مناسبتر هستند[14].
مؤلفه شکل (5-ب) عملکرد یک بلوک QL را نشان میدهد. ورودی این بلوک عددی موهومی است که قدر مطلق آن نشان دهندة وجود سیگنال خطا در آن محدوده فرکانسی است. بنابراین، منفی اندازه آن به عنوان سیگنال پادش انتخاب گردیده است. در این صورت با بیشینه شدن پاداش (میل عدد منفی به سمت صفر) توان سیگنال خطای نهایی کاهش خواهد یافت. تابع مطابق رابطه عددی بین 1 تا N2 را به متغیر حالت نسبت میدهد.
و مجموعه مطابق رابطه اعمال را برای هر حالت به صورت زیر تعریف مینماید:
هر چند که رویه پیشنهادی سیستم نیازی به دانستن دینامیک مسیر اولیه و یا ثانویه ندارد، اما زمان همگرایی نسبتاً زیادی دارد. از طرف دیگر، بر خلاف روش FXLMS نسبت به تغییرات دینامیک اولیه نیز به کندی پاسخ میدهد. لذا با تغییری در محیط، فرایند یادگیری باید دوباره تکرار گردد که این نقیصهای بر این روش است.
حال در برخی از مسائل تخمین صحیح اولیهای از دینامیک مسیر ثانویه وجود دارد که با نشان داده خواهد شد، اما تغییر تدریجی دینامیک ثانویه اثر نامطلوبی در درازمدت بر جا خواهد گذاشت. در اینگونه مسائل، ترکیب روش مشهور FXLMS با یادگیری تقویتی، رویهای مطابق بلوک دیاگرام شکل (6) پیشنهاد میگردد. در این مسئله جدید هم پیادهسازی کنترلکننده یادگیری تقویتی مطابق شکل (5) خواهد بود؛ با این تفاوت که خروجی کنترلکننده QL به جای در مسئله قبل، خواهد بود و علاوه بر آن، مقدار اولیۀ صحیحی نیز برای آن وجود دارد؛ یعنی سیستم سعی خواهد نمود با تغییر از مقادیر اولیه خود، تغییرات مسیر ثانویه را به گونهای جبران نماید که مجدداً توان سیگنال نویز صوتی در خروجی به کمترین مقدار ممکن برسد. هرچند که این شیوه مسئله تغییر دینامیک مسیر ثانویه را حل میکند، اما از دانستن آن دینامیک بینیاز نیست، زیرا هنگامی که تخمینی دور از برای استفاده میگردد، به علت سرعت بالاتر روش FXLMS نسبت به فرایند یادگیری، ممکن است سیستم قبل از رسیدن به تخمین مناسب ناپایدار گردد.
شکل (6): استفاده از QL در تصحیح تغییرات دینامیک مسیر ثانویه
الف) سیگنال خطا در روش QL و گام ثابت 001/0 |
ب)حذف نویز سیگنال تک آوا با QL و گام وفقی(AQL) |
پ) سیگنال خطا در روش ANC-SPSA |
ت) مقایسه چگالی طیفی توان خروجی حالتهای مختلف پس از همگرایی |
شکل (7): مقایسه نتایج روش QL و SPSA-ANC در سیگنال باند باریک تک آوا با تغییر دینامیک مسیر ثانویه |
در ادامه، کارایی روشهای پیشنهادی به وسیله شبیهسازی بررسی میشود. برای مقایسه نتایج با موردی نسبتاً مشابه، از دینامیک محیطی همانند آنچه Zhou [19] به کاربرد، استفاده گردیده است. Zhou برای حذف نویز سیگنال باند باریک به صورت فعال از روشی بدون نیاز به دینامیک محیط به نام SPSA-ANC استفاده نمود. تکنیک SPSA[33] از مشتقات روش بهینهسازی حداکثر شیب[34] است که مزیت آن، به تنها دو نمونهبرداری برای محاسبه بردار گرادیان، مستقل از تعداد پارامترهای مجهول نیاز است[20] تابعی که در SPSA-ANC باید کمینه گردد، توان سیگنال نویز صوتی و پارامترهای مجهول اختلاف فاز و دامنه کنترلکننده نویز برای حذف هارمونیکهای سینوسی موجود در محیط است. با انتخاب فرکانس نمونهبرداری سه کیلو هرتز، دینامیک محیط آزمایشگاهی که مبنای شبیهسازی تحقیق جاری و Zhou و برخی دیگر از تحقیقها[21, 22] قرار گرفته است، به صورت زیر است:
در نخستین شبیهسازی نویز موجود نویز باند باریک تک آوا با فرکانس 100Hz است و رابطه با به عنوان کنترلکننده آن بهکاربرده شده است. سیستم QL باید به نحوی بهترین عملکرد را در هر حالت تعریفشده بیابد که توان سیگنال خروجی را به سمت صفر ببرد و در این مسیر است که و یافته میشوند. حداقل و حداکثر متغیرها مساوی 1± و تعداد تقسیمات مساوی 32( ) گرفته شده است. برای اینکه وفقی بودن سیستم به تغییر نشان داده شود، تغییری ناگهانی و شدید پس از 25 ثانیه شبیهسازی اعمال نموده و دینامیک مسیر ثانویه در منفی یک ضرب گردیده است.
شکل (7-الف) سیگنال خطا را هنگامی که گام ثابت ( ) است و شکل (7-ب) با همان شرایط البته با گام وفقی را نشان میدهد. در شکل (7-پ) نیز همان مسئله با روش ANC-SPSA حل گردیده و سیگنال خطا نمایش داده شده است. در شکل (7-ت) نیز چگالی طیفی توان([35] PSD) برای مقایسه حالتهای مختلف رسم شده است.
مقایسه بین حالتهای مختلف نشان میدهد که هم از نظر زمان همگرایی و هم از نظر میزان حذف نویز رویه پیشنهادی یادگیری تقویتی با گام وفقی بهترین عملکرد را دارد وSPSA-ANC نیز مخصوصاً از نظر زمان همگرایی در رتبه آخر است، اما همه روشها در وفقی بودن نسبت به تغییرات مسیر ثانویه مناسب عمل نمودهاند.
اگر دو هارمونیک غالب داشته باشیم، میتوان با روش بیانشده در بخش 4-1 مسئله را حل نمود، اما اگر نویز صوتی علاوه بر مؤلفه اصلی در دو هارمونیک بعدی خود نیز دارای توان غیرقابل صرفنظر کردن است آنگاه با همان مفروضات قبلی مکان برای ذخیرهسازی جداول نیاز خواهد داشت که مقدار آن بسیار زیاد میگردد. بنابراین، با شکستن این مسئله مطابق روش پیشنهادی بخش 4-2 تنها به مکان نیاز است. در حالت بعد همین مورد اخیر شبیهسازی شد که در شکل (8-الف) شکل ساختهشده توسط کنترلکننده QL و سیگنال قبل از حذف نویز در محیط نشان داده شده است که از نظر اندازه مساوی، اما دارای اختلاف فاز 180 درجه است که باعث شده سیگنال خطا و یا نویز باقیمانده در محیط به سمت صفر برود شکل (8-ب) نیز نحوه رفتن خطا به سمت صفر در طول زمان را نشان میدهد که در مقایسه با شکل (8-پ) که خروجی متد SPSA-ANC است عملکرد سریعتری را از خود نشان میدهد.
در مراحل بعدی بررسی رویههای ارائهشده برای سیگنالهای با طیف گسترده مد نظر است که برای این منظور دینامیک محیط مجدداً همان دینامیک بیانشده در روابط و و سیگنال درشکل (4) به صورت رابطه در نظر گرفته شده است :
که سیگنالی تصادفی دارای توزیع نرمال با میانگین صفر و انحراف معیار 1 است.
الف)شکل نویز محیط و سیگنال تولیدشده توسط کنترلکننده QL
ب)سیگنال خطا در روش QL و گام وفقی(AQL)
پ) سیگنال خطا در روش ANC-SPSA
شکل (8): مقایسه نتایج روش QL و SPSA-ANC در حذف نویز سیگنال باند باریک تک آوا
شکل (9-الف) میزان بهبود کاهش توان سیگنال نسبت به حالتی که سیستم حذف نویز فعال نیست را بر حسب dB نشان میدهد و به زبان ریاضی میتوان آن را به صورت نمایش داد. شایانذکر است که توان سیگنال هنگامی که حذف نویز به صورت فعال نداریم و نیز توان سیگنال خروجی در طول زمان با تعریف انجامشده در رابطه است.
شکل (9-ب و پ) نیز چگالی طیفی توان خروجی در حالت حذف نویز و حالتی را که حذف نویز وجود ندارد، نشان میدهد.
الف) کاهش توان نویز بر حسب dB
ب) چگالی طیفی توان خروجی
پ) چگالی طیفی توان خروجی حول فرکانس اول
شکل (9): نتایج روش QL در حذف نویز برای سیگنال نویز با طیف گسترده
شبیهسازی بعدی برای بررسی میزان مقاومت متد پیشنهادی نسبت به تغییر دینامیک مسیر اولیه و ثانویه طراحی گردید. بدین منظور، پس از یک سوم از ابتدای زمان شبیهسازی تغییر شدیدی با منفی کردن دینامیک مسیر اولیه ( ) و پس از یک سوم دیگر دینامیک مسیر ثانویه با منفی آن جایگزین گردید ( ). شکل (10-الف) سیگنال خطا در رویه پیشنهادی است و نشان میدهد که این روش نسبت به هر دو تغییر به صورت مقاوم عمل مینماید. همین سناریو با طریقه FXLMS نیز شبیهسازی شده است که نتایج آن درشکل (10-ب) نشان داده شده است و همانگونه که انتظار میرود، نسبت به تغییرات دینامیک مسیر اولیه به صورت وفقی عمل مینماید، اما با تغییر در دینامیک مسیر ثانویه در یک سوم آخر شبیهسازی روش ناپایدار میگردد .
الف) سیگنال خطا در روش QL
ب) سیگنال خطا در روش FXLMS
شکل (10): مقایسه پاسخ سیگنال خطا در روشهای مختلف در مقابل تغییر ناگهانی دینامیک مسیر اولیه و ثانویه
در برخی از مسائل تخمینی اولیه برای مسیر ثانویه وجود دارد، اما این تخمین دقیق نیست و یا با گذر زمان به صورت اندک تغییر مینماید. در چنین حالتی طریقه FXLMS کارا نیست و در این صورت میتوان از رویه پیشنهادی در شکل (11) استفاده نمود. برای شبیهسازی حالت فوق فرض شده که دینامیک مسیر ثانویه به صورت متغیر با زمان و به صورت در حوزه فرکانس تعریف گردید که در حقیقت، همان دینامیک تعریفشده در رابطه و با تأخیری متغیر با زمان که در شروع شبیهسازی صفر و پس از 1500 ثانیه به یک تأخیر کامل میرسد شکل (11-الف) نشان میدهد که طریقه FXLMS به تدریج بازدهی خود را از دست داده و سرانجام ناپایدار میگردد، اما شکل (11-ب) نشان میدهد که ترکیب آن با QL باعث گردیده که سیستم خود را با این تغییرات آرام وفق داده و در نتیجه عملکردی یکنواخت داشته باشد.
الف) توان نویز خروجی در روش FXLMS |
ب) توان نویز خروجی در روش ترکیبی QL و FXLMS |
شکل (11): تصحیح مشکل ایجاد ناپایداری و کاهش راندمان در روش حذف نویز FXLMS در هنگام تغییر دینامیک مسیر ثانویه در گذر زمان با کمک QL |
در این تحقیق ایده جدیدی مبتنی بر یادگیری تقویتی برای کاهش نویز صوتی به صورت فعال پیشنهاد گردید. در نخستین مرحله سیگنال آکوستیک مزاحم به صورت یک سیگنال تناوبی (باند باریک) در نظر گرفته شد و صحت عملکرد رویۀ پیشنهادی برای آن بررسی شد. هر چند که نتایج برای سیگنال تک آوا مناسب و خوب بود اما برای سیگنالهای چند آوا از نظر زمان همگرایی و مقدار حافظه مورد لزوم اشکالاتی مشاهده گردید. در گام بعدی با استفاده از روشی مشابه الگوریتم "غلبه و تقسیم" بهینهسازی صورت پذیرفت که نتایج شبیهسازی برای این مورد مناسب بود.
در مرحله بعدی، روشی مبتنی بر یادگیری Q برای سیگنالهای طیف گسترده پیشنهاد شد که با تبدیل آن به چند مسئله با ابعاد کوچکتر در حوزه فرکانس، قابل حل گردید. نتایج شبیهسازی عدم نیاز به دینامیک مسیر پیشرو همانند روشهای موجود را نشان داد. از محاسن این روش بینیازی و مقاوم بودن آن نسبت به تغییر دینامیک مسیر ثانویه بود که این موضوع نیز با شبیهسازی تأیید گردید. در گام آخر نیز با ترکیب روش اخیر و روش FXLMS روشی پیشنهاد گردید که هرچند به عنوان تخمین اولیه به دینامیک مسیر ثانویه نیاز داشت، اما با تغییرات آهسته مسیر ثانویه خود را وفق میداد. از مزایای این روش نسبت به روش اول، پاسخ سریع به تغییرات دینامیک مسیر پیشرو بود که این موضوع به علت ساختار برگرفته آن از روش FXLMS است.
نگارندگان بدین وسیله از پژوهشگاه فضای مجازی که طی قرارداد شماره 500/17165/ت حمایت بخشی از این تحقیق را بر عهده گرفتهاند، تشکر مینمایند.
[1]تاریخ ارسال مقاله : 12/09/1391
تاریخ پذیرش مقاله : 28/01/1392
نام نویسنده مسئول : بهروز رئیسی
نشانی نویسنده مسئول : ایران – شیراز – خیابان زند – دانشگاه شیراز – دانشکده برق و کامپیوتر
[1] Active Noise Control
[2] Quiet zone
[3] Narrow-band Multi-tonal Signals
[4] Agent
[5] Interaction
[6] Environment
[7] Reward signal
[8] Punishment
[9] Reinforcement signal
[10] Action
[11] State
[12] Optimal Policy
[13] Off-policy
[14] Temporal Difference
[15] Discount Rate
[16] Broad-band
[17] Filtered-X Least Mean Square
[18] Forward Path
[19] Secondary Path
[20] Offline
[21] Narrow-band Multi-tonal Signals
[22] ε-greedy
[23] Applying
[24] Divide & Conquer
[25] Low Pass Filte
[26] Adaptive Q-Learning ANC
[27] Mean Square Error
[28] Filtered-X Recursive Least Squares
[29] Fast Fourier Series
[30] Inverse Fast Fourier Series
[31] Discrete cosine transforms
[32] Discrete Hartley transforms
[33] Simultaneous Perturbation Stochastic
Approximation
[34] Steepest Descent
[35] Power Spectral Density