Active Noise Control for Narrow-band and Broad-band Signals Using Q-Learning Technique

Authors

School of Electrical and Computer, Shiraz University, Shiraz, Iran

Abstract

The acoustic noise pollution is one of the serious disasters in the current industrialized life. Though traditional solutions based on noise absorption have many different applications, but these methods have low performance for low frequency noises. Active Noise Control (ANC) has been introduced to resolve this problem. In this paper, a new active method is introduced for suppressing acoustic noises based on the reinforcement learning. To achieve this, an algorithm to control periodic noises is suggested. Then, the method is developed further to deal with multi-tonal signals with a large number of harmonics. At the next step, the broad-band signals are considered. The problem is broken into some sub-problems in frequency domain and each is solved via a reinforcement learning approach. In all of the proposed techniques no model for the environment is needed. Combining the reinforcement learning and the traditional methods in ANC for broad-band signals is a new line research considered here. This combination could increase the speed of the response, but some information of the dynamics of the environment is needed. This will cause the system to become compatible with gradual changes of the environment. Simulation results show the effectiveness of the proposed approach.

Keywords


[1]

هرچند که حرکت تدریجی بشر به سمت مکانیزه کردن هر چه بیشتر فعالیت‌های مورد لزوم، از بسیاری جهات زندگی را برای وی ساده‌تر کرده، ولی از سوی دیگر مشکلات زیادی را برای وی به ارمغان آورده است. یکی از نتایج این زندگی ماشینی، فاصله گرفتن از محیط آرام، ساکت و دلنشین طبیعت و وارد شدن در محیط‌های با آلودگی‌های صوتی فراوان ناشی از حضور هزاران ماشین پرسر و صدا در اطراف وی است. در چنین شرایطی، یکی از مسائل فرارو، بویژه برای اپراتورهای دستگاه‌ها که به شدت در معرض این آسیب‌های صوتی هستند، کم کردن نویز صوتی محیط است. روش سنتی در کنترل صدای مزاحم استفاده از روش‌های غیر فعال نظیر جاذب‌های صوتی و محصور نمودن ناحیه[1, 2] مورد نظر است. این روش­ها ساده و در محدوده وسیعی از طیف فرکانسی کارا بوده، به صرف انرژی و نگهداری چندانی در طول عملکرد خود نیازی نداشته و در صورت عدم مشکل مکانیکی تا مدت‌ها می‌توانند به کار خود ادامه دهند، ولی در فرکانس‌های پایین هزینه­بر و گاهی به علت غیر متعارف شدن ابعاد جاذبها مؤثر نیستند.

پیشنهاد استفاده از روش‌های فعال (ANC[1]) برای این موضوع سابقه نسبتاً دیرینی دارد و نخستین بار توسط Lueg در سال 1936 ارائه شده است[3]. هر چند این پیشنهاد در آن روز به دلیل عدم امکان پیاده‌سازی توسط تکنولوژی موجود به صورت عملی استفاده نشد، اما امروزه مقالات زیادی در این زمینه به چشم می‌خورند. اصول این روش بر پایه ایجاد سیگنال‌هایی الکترواکوستیک تحت کنترل استوار است که توسط یک مجموعه بلندگو به محیط اِعمال می‌گردند. در این سیستم، سیگنال ایجاد شده باید پس از گذر از محیط در ناحیه مورد نظر،  سیگنالی حتی­المقدور با اندازه مساوی و البته با 180 درجه اختلاف فاز نسبت به نویز صوتی موجود تولید نماید که این فرایند در حالت ایده­آل، به ایجاد "ناحیه­ای ساکت[2] " در منطقه مورد نظر می­انجامد. کاربردهای فراوانی نظیر کم کردن صدای موتور آسانسور در کابین آن[4]، کنترل صدای موتور در کابین وسیله نقلیه[5]،  کاهش نویز انتقالی ازکانال یک سیستم تهویه مطبوع[6]، کاهش نویز صوتی پروانه یک قایق پرسرعت[7] و صدای داخل کابین[8]، کاهش صدای یک قایق دو موتوره[9]، یا بهبود کیفیت گوشی[10] از جمله موارد استفاده برای ANC است.

از طرف دیگر، یادگیری تقویتی یکی از روش‌های شناخته شده در شاخه هوش مصنوعی و یادگیری ماشین است. این روش به‌علت سادگی و محاسبات اندک مورد نیاز برای آن، بسیار مورد علاقه محققان برای حل مسائل گوناگون قرار گرفته است. در این تحقیق، از این تکنیک برای حذف نویز به صورت فعال استفاده شده است. در روش پیشنهادی مساله یادگیری تقویتی به گونه‌ای تعریف می­گردد که سیستم با نگریستن به توان نویز صوتی، در طول زمان می­آموزد که در هر حالت چگونه رفتاری از خود نشان دهد که نویز خروجی به بهترین صورت حذف گردد. این روش جزء روش‌های هوشمند مبتنی بر پس‌خور است و تخمینی از دینامیک محیط لازم ندارد. بی نیاز بودن به مدل سازی محیط برای پیاده­سازی این طریقه و مقاوم بودن آن در مقابل تغییرات در طول زمان، از مزیت‌های اصلی این روش نسبت به روش‌های شناخته شده نظیر FXLMS، است که شرح مختصری از آن در بخش سوم خواهد آمد.

در بخش­های آتی این مقاله مباحث به صورت زیر دنبال خواهند گردید: در بخش دوم به طور اجمالی مروری بر مفاهیم یادگیری تقویتی و بالاخص یادگیری به روش کیو صورت خواهد پذیرفت. مساله حذف نویز به صورت فعال و روش‌های موجود در سومین بخش معرفی می­گردند. در بخش چهارم ابتدا روشی اولیه مبتنی بر یادگیری تقویتی برای حذف نویز سیگنال‌های باند باریک مرور خواهد گردید[11] و سپس با تغییراتی، روش به نحوی تکمیل می‌گردد که برای سیگنال‌های چند آوایی باند باریک[3] نیز عملکرد مناسبی داشته باشد. در بخش پنجم دو روش برای سیگنال‌های طیف گسترده ارائه گردیده و مزایا و معایب آن بررسی می‌شود. بخش ششم به شبیه­سازی و بررسی نتایج آن تخصیص یافته و در آخرین بخش نتیجه‌گیری انجام خواهد پذیرفت.

 

1- یادگیری تقویتی

روش یادگیری تقویتی، طبیعی‌ترین روش یادگیری است و از طبیعت الهام گرفته شده است. یک حشره برای رسیدن به هدف خود، که می­تواند غذایی لذیذ باشد، توسط یک سیستم خارجی آموزش نمی­بیند و یا از بین راه‌های موجود از پیش تعیین شده همگی را امتحان نمی‌کند تا بهترین راه را برگزیند. حشره با حرکت در محیط و اخذ پاسخ‌های محیط، که می تواند شدت بوی غذای دلخواهش باشد، به سمت غذا حرکت می‌نماید. در این روش نه از کمک ناظر خارجی خبری است و نه مجموعه راه‌ها و نتایج به دست آمده از قبل مشخص است تا کاربر بتواند با طبقه‌بندی آنها از طریق مشخصات استخراجی، بهترین راه را برگزیند، بلکه عامل[4] با تعامل[5] با محیط[6] و گرفتن پاداش[7] (یا منفی آن که اصلاح تنبیه[8] برای آن مناسبتر است) و بدان سیگنال تقویتی[9] نیز گفته می شود، فرایند یادگیری را تکمیل می‌نماید. در حقیقت، هدف یادگیری، چگونگی نسبت دادن یک عمل[10] به هر حالت[11] موجود، به گونه‌ای است که یک سیگنال عددی را بیشینه نماید[12]. بیشترین مزیت حل با روش یادگیری تقویتی در ارتباط با سیستم‌هایی است که مدل سیستم به طور دقیق و کامل شناخته شده نیست و در آن عامل می­خواهد با تعامل با محیط به یک سیاست بهینه[12] برسد. منظور از سیاست، همان روش عامل در انتخاب عمل در حالت‌های مختلف است.

مشهورترین و شاید ساده‌ترین روش یادگیری تقویتی روش یادگیری کیو (QL) است. QL جزو دسته­بندی سیاست خاموش[13] و گروه تفاوت زمانی[14] است. این روش بر اساس ارزش عمل- حالت است که برای هر عمل و حالت در یک جدول به نام  ذخیره شده است. در جدول  مقدار مورد انتظار  پاداش در طولانی مدت برای حالت  و عمل ذخیره شده است .

مقادیر جدول  برای کنترل رفتار عامل استفاده می‌شود. به عبارت دیگر، هنگامی که یک عامل در حالت  قرار دارد، عملی را که دارای  مقدار متناظر بیشتری در جدول  است، با احتمال بیشتری انتخاب می‌نماید. بنابراین، تخمین مقادیر این جدول بسیار مهم بوده، بهبود تخمین مقادیر این جدول با فرمول بازگشتی زیر در هر گام زمانی صورت می­پذیرد:

   

 

که در آن  و  حالت و عملی هستند که در t امین گام زمانی، سیستم در آن بوده است،  نرخ تنزیل[15] و اعداد مثبتی بین صفر و یک هستند. نقش  جلوگیری از رفتن پاداش نهایی به سمت بی­نهایت و  بر نرخ یادگیری سیستم تاثیرگذار است. تعاریف دقیق‌تر و نقش هر کدام بحث­های بیشتری را می­طلبد که از حوصله این مقاله خارج است و به مراجعه به منابع مرتبط خواهد نیاز            داشت [12, 13].

2- روش‌های حذف نویز به صورت فعال

ANC بر حسب نوع طیف فرکانسی سیگنال نویز صوتی می­تواند به دسته­های مختلفی تقسیم شود. در برخی از کاربردها نویز ورودی حاصل از یک عملیات تناوبی نظیر گردش یک چرخ و یا عملیات رفت و برگشت یک پیستون با فرکانس ثابت است. در این نوع مسائل توان نویز در یک فرکانس اصلی و سپس در هارمونیک‌های تولید شده آن است. به این نوع سیگنال، سیگنال چند آوایی باند باریک گفته می­شود. البته، حالت خاص که توان نویز در یک هارمونیک متمرکز شده است، به نام سیگنال باند باریک تک آوا شناخته می­شود. در برخی دیگر از موارد، توان نویز در گستره­ای از محدوده فرکانسی پخش شده است که به این نوع اخیر سیگنال طیف گسترده یا پهن باند[16] گفته می­شود.

برای سیگنال‌های باند باریک می­توان مدلی فرض نمود و کنترل­کننده ANC می­تواند با تغییر پارامترهای مدل متناسب با وضعیت، سیگنال با فاز معکوس را بازسازی نماید، اما اگر نویز تولید شده از منبع از نوع پهن باند باشد که نتوان مدل مناسبی برای آن یافت (برای مثال، اگر سیگنال تقریباً نویز سفید باشد) آنگاه برای یافتن سیگنال معکوس در ناحیه دلخواه باید علاوه بر سیگنال خطا، از منبع نویز نیز نمونه­برداری صورت پذیرد و با گذراندن آن از فیلتر مناسب، در نهایت در نقطه هدف سیگنالی معکوس با سیگنال رسیده شده از منبع نویز، تولید گردد. یکی از مشهورترین روش‌های مورد استفاده در ANC روش FXLMS[17] است که بلوک دیاگرام آن در شکل (1) نشان داده شده است[14].

 

شکل (1): بلوک دیاگرام کنترل نویز با روش FXLMS[14]

 

این روش ابتدا توسط Burgess [15] برای ANC پیشنهاد داده شد که هدف اسلوب ارائه شده حذف نویز صوتی در نقطه­ای دلخواه از محیط است. این سیگنال که نمونۀ ام آن با  نشان داده شده، در حقیقت تغییر یافته نویز تولید شده در منبع تولید نویز ( ) پس از گذر از محیط است. دینامیک این مسیر در محیط با  نشان داده شده و اصطلاحاً بدان مسیر پیشرو[18] گفته می­شود. در این تکنیک، از نویز در منبع تولید خود نمونه برداری شده و فیلتر وفقی  به تدریج به گونه­ای تنظیم     می­شود که خروجی آن پس از گذر از محیط بتواند در ناحیه مد نظر، سیگنالی هم اندازه، اما با اختلاف فاز 180 درجه با سیگنال اولیه ایجاد نماید. دینامیک محیط از خروجی فیلتر وفقی  به محیط با  نشان داده شده و به دینامیک مسیر ثانویه[19] مشهور می­باشد. اگر بردار پاسخ ضربه  در امین گام با  نشان داده شود که طول بردار ضربه و ، امین المان بردار ضربه در امین گام باشد، آن گاه می­توان اثبات نمود که برای کمینه نمودن حداقل مربعات خطا باید بردار  توسط فرمول به روز گردد:  

   

که ، امین نمونه خروجی نویز پس از گذر تابع تبدیل مدل‌سازی شده دینامیک مسیر ثانویه ( ) برای تعریف بردار  به صورت  و  یک عدد مثبت برای به عنوان گام پیشروی و  نیز نمونه ام سیگنال پس‌خور است.

همان‌گونه که از رابطه و شکل (1) مشخص است، از ملزومات این روش داشتن مدلی از مسیر ثانویه ( ) است. به همین منظور، در اکثر کاربردها این تخمین با مدل‌سازی مسئله به صورت برون­خط[20] محاسبه می­گردد[5] و هنگام اجرای متد با فرض نامتغیر بودن دینامیک از این مدل ثابت استفاده می­گردد، اما در برخی از کاربردها سیستم به صورت وفقی در هر گام تخمین زده شده و از مقدار تخمین زده شده برای کنترل نویز استفاده می­گردد. در روش اول، در زمان اجرا زمانی برای تخمین کانال صرف نمی­گردد و در نتیجه بار محاسباتی کمتری برای اجرا لازم دارد، ولی برخلاف روش دوم از مزایای وفقی بودن استفاده نمی­نماید. بنابراین، با تغییر مدل محیط در طول عملکرد و یا خطا در مدل‌سازی بازدهی نهایی کاهش می­یابد.

 

3- حذف نویز برای سیگنال‌های باند باریک

در این بخش مروری بر یک روش ارائه‌شده مبتنی بر یادگیری تقویتی برای حذف نویز سیگنال‌های باند باریک صورت خواهد پذیرفت[11] و سپس با ارائه پیشنهادهایی روش به نحوی تکمیل می­گردد که برای سیگنال‌های چند آوایی باند باریک[21] با تعداد هارمونیک بالا نیز عملکرد مناسبی داشته باشد.

 

3-1- حذف نویز و یادگیری تقویتی

استفاده از یادگیری تقویتی با روش QL برای حذف نویز صوتی ابتدا در سال 2012 توسط رئیسی و گلبهار[11] ارائه شد که علی‌رغم نوآوری و مزایایی که در پی داشت، با افزایش تعداد هارمونیک با چالش‌هایی روبه‌رو می‌گردید. در ادامه، روش پیشنهادی و مشکلات آن مورد بحث قرار می‌گیرد.

شکل (2) بلوک دیاگرام این روش را که با استفاده از یک کنترل‌کننده QL  شکل گرفته است، نشان می­دهد. این سیستم در حالت کامل شده برای حذف نویز یک سیگنال تناوبی با M هارمونیک پیشنهاد گردیده است. کنترل‌کننده  پیشنهادی برای این کار، دارای 2M متغیر و به صورت رابطه تعریف می­گردد.

   

هدف در این مسئله، یافتن مقادیر  تا  است، به گونه‌ای که سیگنال‌های تولیدشده در رابطه بتوانند پس از گذر از دینامیک مسیر ثانویه، نویز موجود در محیط در ناحیه ساکت را خنثی کند و توان سیگنال صوتی در آن ناحیه را به سمت صفر ببرد.

 

 

شکل(2): حذف نویز برای سیگنال‌های باند باریک با QL.

 

 

با توجه به اینکه روش یادگیری تقویتی برای این منظور انتخاب شده، لذا تعریف متغیر حالت، عمل­های قابل قبول و مشخص نمودن سیگنال تقویتی یا پاداش از مراحل کار هستند.

برای تعریف متغیر حالت می­توان از مقدار عددی شده پارامترهای تا  استفاده نمود. لذا تابع  برای نسبت دادن یک عدد به حالت سیستم، برای سیگنال باند باریک با هارمونیک، به صورت تعریف گردیده است.

   

 

که تابع  وظیفه کوانیزه کردن  از مقدار حداقل تا حداکثر ممکن خود، به عدد 0 تا  را بر عهده دارد. به سادگی این موضوع قابل بررسی است که تابع  مقداری صحیح، بین 1 تا  را به حالت سیستم نسبت خواهد داد. 

در گام بعدی عملگرهای  و  به منظور افزایش و کاهش پارامتر خود به اندازه انتخاب شده  (به شرطی که از محدوده مجاز خود خارج نشود) و  برای بدون تغییر ماندن همه پارامترها معرفی می­گردند. با کمک تعاریف فوق مجموعه  که نشان‌دهنده اعمال مجاز در حالت دلخواه  است، با  عضو  با ضابطه تعریف می­گردد.

   
 

احتمال انتخاب عمل بین اعمال فوق در حالت  بسته به مقدار متناظر آن برای هر عمل در جدول  و بر طبق متد ε- حریصانه[22][12] است و نحوه به­روز آوری جدول Q مطابق فرمول مشهور QL به صورت رابطه است.

تنها کمیت باقی‌مانده تعریف سیگنال پاداش است. روش QL سعی در بیشینه کردن تابع پاداش خود در طولانی مدت را دارد. بنابراین، با توجه به هدف سیستم که کاهش توان نویز در ناحیه ساکت است، منفی توان سیگنال در محیط به عنوان پاداش در نظر گرفته می­شود. با این تعریف بیشینه کردن پاداش، معادل صفر نمودن توان نویز در خروجی و یا ساکت بودن مطلق ناحیه مورد نظر خواهد گردید. اگر دورۀ تناوب زمانی اِعمال[23] فرمان با  نشان داده شود، آنگاه در بازه زمانی بین و   سیگنال پاداش با  نشان داده‌شده و به صورت رابطه تعریف می­گردد.

   

هرچند با تعریف کنترل‌کننده QL، متغیر حالت و مجموعه اعمال و سیگنال پاداش تعریف مسئله کامل گردید اما در اجرا روش مشکلاتی را خواهد داشت که ذیلاً بدان پرداخته می­گردد.

روش QL بر اساس تخمین جدول  و سپس تصمیم­گیری انجام عمل بر اساس آن است. تعداد اعضای این جدول در روش پیشنهادی به صورت رابطه ؛ یعنی ضرب تعداد حالات مجاز در تعداد اعمال مجاز در هر حالت، محاسبه خواهد گردید.

   

که  تابعی است که تعداد اعضای آرگومان را می‌یابد و M تعداد هارمونیک و N تعداد سطوح عددی شدن هر مؤلفه است همان‌گونه که مشاهده می‌شود، تعداد المان‌های این جدول با بالا رفتن تعداد هارمونیک‌ها به صورت نمایی افزایش می‌یابند که این افزایش، مشکلات خود زیر را در پی خواهد داشت:

الف) با بالاتر رفتن تعداد هارمونیک‌ها تعداد حافظه مورد نیاز برای جدول به شدت افزایش می­یابد؛ به گونه‌ای که در بیش از دو و حداکثر سه هارمونیک تأمین آن به سختی ممکن است و یا هزینه کلی را به صورت غیرقابل قبولی افزایش می­دهد.

ب) علاوه بر مشکلات سخت‌افزاری و هزینه تمام‌شده، با افزایش تعداد المان‌ها جدول Q مشکل عمده­تری بروز می‌نماید و آن زمان یادگیری سیستم است. این کمیت با تعداد المان‌ها رابطه هم جهتی دارد و در نتیجه با افزایش تعداد، زمان یادگیری هم افزایش می‌یابد.

در ادامه، برای رفع مشکلات روشی ارائه می­گردد که نتیجه کار در آن به کاهش کلی حافظه مورد نیاز و زمان یادگیری منجر خواهد گردد.

 

3-2- شکستن مسئله به بلوک‌های کوچک‌تر

آنچه در رابطه باعث افزایش تعداد مورد لزوم حافظه مورد نیاز می­گردد، رابطه نمایی خروجی با تعداد هارمونیک (M) است. روشی که برای این حل معضل پیشنهاد می­گردد، از نظر اصول بسیار با الگوریتم تقسیم و غلبه[24] [16] مشابهت دارد. در این شیوه، مسئله‌ای که دارای ابعاد بزرگ است، ابتدا به دو یا چند مسئله کوچک‌تر و مشابه تقسیم‌شده و اگر حل مسئله‌های کوچک‌تر امکان‌پذیر باشد آنگاه، با تجمیع جواب‌های به دست آمده، جواب نهایی به دست خواهد آمد. معمولاً نخستین نتیجه این الگوریتم کاهش ابعاد و محاسبات مسئله اولیه است. دیاگرام شکل (3) نیز بر این اساس برای حذف نویز پیشنهاد گردیده است.

این روش در اصول ANC از آنچه در بخش قبل آمده بود، تبعیت می­نماید؛ یعنی نویز صوتی ( )، پس از گذر از دینامیک مسیر اولیه ( )، به ناحیه­ای که باید ساکت گردد، می­رسد. وظیفه کنترل‌کننده QL طراحی‌شده نیز تولید سیگنالی است (y(n)) که پس از گذر از دینامیک مسیر ثانویه ( )، در ناحیه ساکت، سیگنالی هم اندازه اما با اختلاف فاز 180 درجه به گونه‌ای ایجاد نماید که برایند مجموع ( ) در ناحیه ساکت به سمت صفر برود. آنچه باعث تفاوت روش شده، شکست تنها کنترل‌کننده یادگیری تقویتی حالت قبل، به کنترل‌کننده در مسیرهای موازی است که وظیفه هر مسیر، کاهش توان نویز تنها در یک هارمونیک است. با قرار دادن  در رابطه تعداد اعضای جدول  مسیر ام، که آن را با  نشان خواهیم داد،  خواهد گردید. به این ترتیب، تعداد کل اعضا برای  جدول در مسیرهای موازی مجموعاً  به دست خواهد آمد که تغییر حالت نمایی ذکرشده در رابطه به حالت خطی فعلی دستاورد قابل‌ملاحظه‌ای است.

کنترل‌کننده QL در مسیر فرضی ام که تنها  وظیفه حذف یک هارمونیک را بر عهده دارد با  نشان داده‌شده و توسط رابطه تعریف می­گردد:

   

بلوک­های  تا  در شکل (3) نمایانگر عملکرد یادگیری تقویتی در یک مسیر است. در این شکل در مسیر ام توان هارمونیک مربوطه به عنوان سیگنال تقویتی به بلوک واردشده که منفی آن، سیگنال پاداش را تشکیل    می­دهد. این کنترل کننده بر طبق مقادیر جدول          حالت – عمل متناظر ( )، به گونه‌ای اعمال مناسب را انتخاب می­نماید که مقادیر  و در رابطه ،  برای حذف نویز در فرکانس متناظر تنظیم شوند. در ضمن، در هر گام با استفاده از رابطه مقادیر  نیز به‌روز می­گردند.



 

شکل (3): بلوک دیاگرام کلی شکستن مسئله به بلوک‌های کوچک‌تر

 

 

بلوک‌های   تا  در شکل (3) نیز نحوه یافتن توان سیگنال خروجی در فرکانس متناظر را نشان می­دهد. بدین منظور، به راحتی می‌توان اثبات نمود که پس از ضرب سیگنال خطا در دو مؤلفه عمود بر هم سینوسی و کسینوسی با فرکانس مناسب و گذر از یک فیلتر پایین گذر(LPF[25]) توان مد نظر یافته می­شود.

استفاده از این روش مزایای دیگری را هم در پی خواهد داشت، زیرا کم شدن تعداد المان‌ها باعث بهبود زمان یادگیری نیز می­گردد. علاوه بر آن، استفاده از بلوک‌های مشابه در ساختار که بار محاسباتی کمی بر دوش دارند، باعث می‌شود که امکان پیاده‌سازی سیستم با سیستم‌های ارزان‌قیمت مشابه و موازی وجود خواهد داشت که ساخت و خطایابی سیستم را بسیار ساده­تر خواهد نمود و در نتیجه مزیت مناسبی در قیمت تمام‌شده درپی خواهد داشت.

3-3- تنظیم گام پیشروی به صورت وفقی

انتخاب متغیر ، که در تعریف عملگرهای  و  وظیفه کاهش و افزایش مقدار متغیر حالت را بر عهده دارد، تأثیر بسزایی در رفتار سیستم خواهد داشت. در صورتی که این متغیر بزرگ در نظر گرفته شود، با کوچک شدن توان سیگنال خروجی ( ) و قابل‌مقایسه شدن آن با مقدار  حذف نویز متوقف می­گردد. در مقابل، به ازای کوچک شدن مقدار  زمان همگرایی روش افزایش می­یابد. لذا نکته دیگری که می­تواند در بهبود روش کمک کند، تغییر گام، متناسب با توان سیگنال خروجی است. با توجه به استدلال­های فوق، AQL-ANC[26] با روش بیان‌شده در بخش 4-2 و با انتخاب متغیر  به صورت وفقی مطابق رابطه ، به عنوان نسخه کامل شده ارائه   می­گردد.

 

   

 

 

4- حذف نویز برای سیگنال طیف گسترده

همان‌گونه که در بخش 3 ذکر گردید، اکثر روش‌های پایه برای حذف نویز طیف گسترده، باید تخمین مناسبی از دینامیک مسیر ثانویه داشته باشند. هرچند که دینامیک مسیر ثانویه، نسبت به مسیر پیشرو معمولاً تحت کنترل و دارای ثبات نسبی مناسبی است، اما دلایل مختلفی نظیر گذشت زمان و یا عوامل محیطی می­تواند بر آن تأثیر گذاشته و اختلافی بین دینامیک تخمین زده‌شده و دینامیک واقعی به وجود آید. این اختلاف به کاهش راندمان و یا در بعضی موارد حاد به ناپایداری منجر خواهد گردید. استفاده از تکنیک‌های هوشمند نظیر یادگیری تقویتی می­تواند در رفع این نقیصه کمک نماید. بدین منظور، در شکل (4) سیستمی به صورت بلوک دیاگرامی پیشنهاد شده است. اکثر توضیحات و متغیرهای مرتبط با شکل (1) برای این شکل نیز صادق است با این تفاوت که تنظیم فیلتر وفقی، که در این شکل با نشان داده شده است، بر عهده یک کنترل‌کننده مبتنی بر یادگیری Q است. با تعریف صحیح مسئله یادگیری تقویتی برای آن، این کنترل‌کننده با نگاه کردن به سیگنال خطا، می­تواند یاد بگیرد که در هر موقعیت چه عملی را انجام دهد که نتیجه عمل به حذف نویز از محیط منجر شود. پاداشی که برای کنترل کردن نویز در نظر گرفته شده است، از جنس منفی توان است که حداکثر آن در توان صفر اتفاق خواهد افتاد و با بیشینه کردن آن نویز در محیط حذف می­گردد. 

 

شکل (4): استفاده از QL در تخمین فیلتر مناسب برای حذف نویز

 

آنچه که این طریقه پیشنهادی را نسبت به روش‌های وفقی نظیر MSE[27] یا LMS متمایز و ارجح می‌سازد موضوع حساسیت نداشتن به عدم تراز زمانی بین خطا و پروسه تنظیم است. به عبارت دیگر، هنگامی که تنظیم پارامتر بر روی صورت می­پذیرد، اثر آن پس از گذر از در خروجی ظاهر می­گردد که در نظر نگرفتن این دینامیک باعث ناپایداری می­گردد. روش­هایی نظیر FXLMS یا FXRLS[28] نیز با فرض دانستن دینامیک ثانویه بر این مشکل فائق می­آیند[14]. اما در روش یادگیری تقویتی ذات روش بر اساس تخمین پاداش در آینده است و چنین انتظار می­رود که اعمالی که پاداش در آینده را بیشینه می­کنند را به خوبی یاد بگیرد. اما آنچه در این مسیر مشکل ایجاد می­نماید مشکل ابعاد می­باشد که در بخش 4-1 نیز به مورد مشابه آن برخورد گردید. در مسئله اخیر نیز اگر تنها سیگنال پاداش منفی توان کل در نظر گرفته شود، که باید به وسیله آن کلیه عناصر فیلتر یافته شود ابعاد مسئله به حدی افزایش می­یابد که امکان حل آن وجود نخواهد داشت.

برای حل این معضل مشابه حالت قبل، از تکنیک تقسیم و غلبه در حوزه فرکانس استفاده می­گردد؛ به گونه‌ای که هر بلوک با عمل در محدوده خاص فرکانسی، سعی در کاهش توان در همان محدوده را خواهد داشت. در شکل (5-الف) ساختاری کلی برای این کار پیشنهاد شده است. هدف نهایی از این ساختار یافتن  در حوزه فرکانس است. اگر سیگنال صوتی خروجی و فیلتر  در حوزه فرکانس را با  و نشان دهیم، نمونه­های حوزه فرکانس آن‌ها در فواصل ثابت  اعدادی موهومی هستند. با دانستن موضوع فوق پارامتر موهومی و اعداد حقیقی  و  به صورت  و  تعریف می­گردند. هدف در هر مسیر موازی، کاهش مقدار  و ابزار در دسترس، تغییر در  و  است. البته، لازم نیست این عملیات در تمام فضای فرکانسی صورت پذیرد و در قسمت‌های فرکانس بالا که سیگنالی وجود ندارد، مقادیر متناظر ورودی IFFT اهمیتی ندارد و می­توان با مقدار دلخواهی نظیر صفر جایگزین گردند که در شکل (5-الف) نیز به همین منظور مقادیر  تا   در ورودی IFFT با صفر جایگزین گردیده‌اند.

 

   

الف) بلوک دیاگرام کلی سیستم

ب) نمایش امین بلوک QL

شکل (5): انتقال سیگنال خطا به حوزه فرکانس برای شکستن مسئله به بلوک‌های کوچک‌تر

 

 

نکته قابل‌ذکر دیگر اینکه هرچند که در شکل (5-الف) از تبدیل‌های فوریه سریع (FFT[29]) و معکوس آن (IFFT[30]) به عنوان نماینده­هایی برای  تبدیل به فضای فرکانس و یا بازگشت از آن استفاده شده است، اما تبدیل‌هایی نظیر تبدیل گسسته کسینوسی[31] [17] و تبدیل گسسته هارتلی[32][18]  به جهت پیاده­سازی ساده­تر و برای این­کار مناسب‌تر هستند[14].

مؤلفه شکل (5-ب) عملکرد یک بلوک QL را نشان می­دهد. ورودی این بلوک عددی موهومی است که قدر مطلق آن نشان دهندة وجود سیگنال خطا در آن محدوده فرکانسی است. بنابراین، منفی اندازه آن به عنوان سیگنال پادش انتخاب گردیده است. در این صورت با بیشینه شدن پاداش (میل عدد منفی به سمت صفر) توان سیگنال خطای نهایی کاهش خواهد یافت. تابع  مطابق رابطه عددی بین 1 تا N2 را به متغیر حالت نسبت می­دهد.

   

و مجموعه  مطابق رابطه اعمال را برای هر حالت به صورت زیر تعریف می­نماید:

   

هر چند که رویه پیشنهادی سیستم نیازی به دانستن دینامیک مسیر اولیه و یا ثانویه ندارد، اما زمان همگرایی نسبتاً زیادی دارد. از طرف دیگر، بر خلاف روش FXLMS نسبت به تغییرات دینامیک اولیه نیز به کندی پاسخ می­دهد. لذا با تغییری در محیط، فرایند یادگیری باید دوباره تکرار گردد که این نقیصه­ای بر این روش است.

حال در برخی از مسائل تخمین صحیح اولیه­ای از دینامیک مسیر ثانویه وجود دارد که با  نشان داده خواهد شد، اما تغییر تدریجی دینامیک ثانویه اثر نامطلوبی در درازمدت بر جا خواهد گذاشت. در این‌گونه مسائل، ترکیب روش مشهور FXLMS با یادگیری تقویتی، رویه‌ای مطابق بلوک دیاگرام شکل (6) پیشنهاد می‌گردد. در این مسئله جدید هم پیاده‌سازی کنترل‌کننده یادگیری تقویتی مطابق شکل (5) خواهد بود؛ با این تفاوت که خروجی کنترل‌کننده QL به جای  در مسئله قبل،  خواهد بود و علاوه بر آن، مقدار اولیۀ صحیحی نیز برای آن وجود دارد؛ یعنی سیستم سعی خواهد نمود با تغییر  از مقادیر اولیه خود، تغییرات مسیر ثانویه را به گونه‌ای جبران نماید که مجدداً توان سیگنال نویز صوتی در خروجی به کمترین مقدار ممکن برسد. هرچند که این شیوه مسئله تغییر دینامیک مسیر ثانویه را حل می‌کند، اما از دانستن آن دینامیک بی‌نیاز نیست، زیرا هنگامی که تخمینی دور از  برای  استفاده می­گردد، به علت سرعت بالاتر روش FXLMS نسبت به فرایند یادگیری، ممکن است سیستم قبل از رسیدن به تخمین مناسب ناپایدار گردد.

 

 

شکل (6): استفاده از QL در تصحیح تغییرات دینامیک مسیر ثانویه


   

الف) سیگنال خطا در روش QL و گام ثابت 001/0

ب)حذف نویز سیگنال تک آوا با QL و گام وفقی(AQL)

   

پ) سیگنال خطا در روش ANC-SPSA

ت) مقایسه چگالی طیفی توان خروجی حالت‌های مختلف پس از همگرایی

شکل (7): مقایسه نتایج روش QL و SPSA-ANC در سیگنال باند باریک تک آوا با تغییر دینامیک مسیر ثانویه


5- نتایج شبیه­سازی

در ادامه، کارایی روش‌های پیشنهادی به وسیله شبیه‌سازی بررسی می‌شود. برای مقایسه نتایج با موردی نسبتاً مشابه، از دینامیک محیطی همانند آنچه Zhou [19] به کاربرد، استفاده گردیده است. Zhou برای حذف نویز سیگنال باند باریک به صورت فعال از روشی بدون نیاز به دینامیک محیط به نام SPSA-ANC استفاده نمود. تکنیک SPSA[33] از مشتقات روش بهینه­سازی حداکثر شیب[34] است که مزیت آن، به تنها دو نمونه‌برداری برای محاسبه بردار گرادیان، مستقل از تعداد پارامترهای مجهول نیاز است[20] تابعی که در  SPSA-ANC باید کمینه گردد، توان سیگنال نویز صوتی و پارامترهای مجهول اختلاف فاز و دامنه کنترل‌کننده نویز برای حذف هارمونیک‌های سینوسی موجود در محیط است. با انتخاب فرکانس نمونه‌برداری سه کیلو هرتز، دینامیک محیط آزمایشگاهی که مبنای شبیه‌سازی تحقیق جاری و Zhou و برخی دیگر از تحقیق­ها[21, 22] قرار گرفته است، به صورت زیر است:

   
   

 

در نخستین شبیه­سازی نویز موجود نویز باند باریک تک آوا با فرکانس 100Hz است و رابطه با  به عنوان کنترل‌کننده آن به‌کاربرده شده است. سیستم QL باید به نحوی بهترین عملکرد را در هر حالت تعریف‌شده بیابد که توان سیگنال خروجی را به سمت صفر ببرد و در این مسیر است که  و یافته می­شوند. حداقل و حداکثر متغیرها مساوی 1± و تعداد تقسیمات مساوی 32( )  گرفته شده است. برای اینکه وفقی بودن سیستم به تغییر  نشان داده شود، تغییری ناگهانی و شدید پس از 25 ثانیه شبیه­سازی اعمال نموده و دینامیک مسیر ثانویه در منفی یک ضرب گردیده است.

شکل (7-الف) سیگنال خطا را هنگامی که گام  ثابت  ( ) است و شکل (7-ب)  با همان شرایط البته با گام وفقی را نشان می­دهد.  در شکل (7-پ) نیز همان مسئله با روش ANC-SPSA حل گردیده و سیگنال خطا نمایش داده شده است. در شکل (7-ت) نیز چگالی طیفی توان([35] PSD) برای مقایسه حالت‌های مختلف رسم شده است.

 

مقایسه بین حالت‌های مختلف نشان می‌دهد که هم از نظر زمان همگرایی و هم از نظر میزان حذف نویز  رویه پیشنهادی یادگیری تقویتی با گام وفقی بهترین عملکرد را دارد وSPSA-ANC  نیز مخصوصاً از نظر زمان همگرایی در رتبه آخر است، اما همه روش‌ها در وفقی بودن نسبت به تغییرات مسیر ثانویه مناسب عمل نموده­اند.

اگر دو هارمونیک غالب داشته باشیم، می­توان با روش بیان‌شده در بخش 4-1 مسئله را حل نمود، اما اگر نویز صوتی علاوه بر مؤلفه اصلی در دو هارمونیک بعدی خود نیز دارای توان غیرقابل صرف‌نظر کردن است آنگاه با همان مفروضات قبلی  مکان برای ذخیره­سازی جداول  نیاز خواهد داشت که مقدار آن بسیار زیاد می­گردد. بنابراین، با شکستن این مسئله مطابق روش پیشنهادی بخش 4-2 تنها به  مکان نیاز است. در حالت بعد همین مورد اخیر شبیه­سازی شد که در شکل (8-الف) شکل ساخته‌شده  توسط کنترل‌کننده QL و سیگنال قبل از حذف نویز در محیط نشان داده شده است که از نظر اندازه مساوی، اما دارای اختلاف فاز 180 درجه است که باعث شده سیگنال خطا و یا نویز باقیمانده در محیط به سمت صفر برود شکل (8-ب) نیز نحوه رفتن خطا به سمت صفر در طول زمان را نشان می­دهد که در مقایسه با شکل (8-پ) که خروجی متد SPSA-ANC است عملکرد سریع‌تری را از خود نشان می­دهد.

در مراحل بعدی بررسی رویه­های ارائه‌شده برای سیگنال­های با طیف گسترده مد نظر است که برای این منظور دینامیک محیط مجدداً همان دینامیک بیان‌شده در روابط و   و سیگنال  درشکل (4) به صورت رابطه در نظر گرفته شده است :

 

   

 

که سیگنالی تصادفی دارای توزیع نرمال با میانگین صفر و انحراف معیار 1 است.

 

الف)شکل نویز محیط و سیگنال تولیدشده توسط کنترل‌کننده QL

 

ب)سیگنال خطا در روش QL و گام وفقی(AQL)

 

پ) سیگنال خطا در روش  ANC-SPSA

 

شکل (8): مقایسه نتایج روش QL و SPSA-ANC در حذف نویز سیگنال باند باریک تک آوا

شکل (9-الف) میزان بهبود کاهش توان سیگنال نسبت به حالتی که سیستم حذف نویز فعال نیست را بر حسب dB نشان می­دهد و به زبان ریاضی می­توان آن را به صورت  نمایش داد. شایان‌ذکر است که   توان سیگنال هنگامی که حذف نویز به صورت فعال نداریم و  نیز توان سیگنال خروجی در طول زمان با تعریف انجام‌شده در رابطه است.

شکل (9-ب و پ) نیز چگالی طیفی توان خروجی در حالت حذف نویز و حالتی را که حذف نویز وجود ندارد، نشان می‌دهد.

 

الف) کاهش توان نویز بر حسب dB

 

ب) چگالی طیفی توان خروجی

 

پ) چگالی طیفی توان خروجی حول فرکانس اول

 

شکل (9): نتایج روش QL در حذف نویز برای سیگنال نویز با طیف گسترده

 

شبیه­سازی بعدی برای بررسی میزان مقاومت متد پیشنهادی نسبت به تغییر دینامیک مسیر اولیه و ثانویه طراحی گردید. بدین منظور، پس از یک سوم از ابتدای زمان شبیه­سازی تغییر شدیدی با منفی کردن دینامیک مسیر اولیه ( ) و پس از یک سوم دیگر دینامیک مسیر ثانویه با منفی آن جایگزین گردید ( ). شکل (10-الف) سیگنال خطا در رویه پیشنهادی است و نشان می‌دهد که این روش نسبت به هر دو تغییر به صورت مقاوم عمل می­نماید. همین سناریو با طریقه FXLMS نیز شبیه‌سازی شده است که نتایج آن درشکل (10-ب) نشان داده شده است و همان‌گونه که انتظار می‌رود، نسبت به تغییرات دینامیک مسیر اولیه به صورت وفقی عمل می‌نماید، اما با تغییر در دینامیک مسیر ثانویه در یک سوم آخر شبیه‌سازی روش ناپایدار می‌گردد .

 

الف) سیگنال خطا در روش QL

 

ب) سیگنال خطا در روش FXLMS

 

شکل (10): مقایسه پاسخ سیگنال خطا در روش‌های مختلف در مقابل تغییر ناگهانی دینامیک مسیر اولیه و ثانویه

 

در برخی از مسائل تخمینی اولیه برای مسیر ثانویه وجود دارد، اما این تخمین دقیق نیست و یا با گذر زمان به صورت اندک تغییر می­نماید. در چنین حالتی طریقه FXLMS کارا نیست و در این صورت می‌توان از رویه پیشنهادی در شکل (11) استفاده نمود. برای شبیه‌سازی حالت فوق فرض شده که دینامیک مسیر ثانویه به صورت متغیر با زمان و به صورت  در حوزه فرکانس تعریف گردید که در حقیقت، همان دینامیک تعریف‌شده در رابطه و با تأخیری متغیر با زمان که در شروع شبیه­سازی صفر و پس از 1500 ثانیه به یک تأخیر کامل می­رسد شکل (11-الف) نشان می­دهد که طریقه FXLMS به تدریج بازدهی خود را از دست داده و سرانجام ناپایدار می‌گردد، اما شکل (11-ب) نشان می‌دهد که ترکیب آن با QL باعث گردیده که سیستم خود را با این تغییرات آرام وفق داده و در نتیجه عملکردی یکنواخت داشته باشد.

 

   

الف) توان نویز خروجی در روش FXLMS

ب) توان نویز خروجی در روش ترکیبی QL و FXLMS

شکل (11): تصحیح مشکل ایجاد ناپایداری و کاهش راندمان در روش حذف نویز FXLMS در هنگام تغییر دینامیک مسیر ثانویه در گذر زمان با کمک QL

 

6- نتیجه‌گیری

در این تحقیق ایده جدیدی مبتنی بر یادگیری تقویتی برای کاهش نویز صوتی به صورت فعال پیشنهاد گردید. در نخستین مرحله سیگنال آکوستیک مزاحم به صورت یک سیگنال تناوبی (باند باریک) در نظر گرفته شد و صحت عملکرد رویۀ پیشنهادی برای آن بررسی شد. هر چند که نتایج برای سیگنال تک آوا مناسب و خوب بود اما برای سیگنال‌های چند آوا از نظر زمان همگرایی و مقدار حافظه مورد لزوم اشکالاتی مشاهده گردید.  در گام بعدی با استفاده از روشی مشابه الگوریتم "غلبه و تقسیم" بهینه‌سازی صورت پذیرفت که نتایج شبیه­سازی برای این مورد مناسب بود.

در مرحله بعدی، روشی مبتنی بر یادگیری Q برای سیگنال‌های طیف گسترده پیشنهاد شد که با تبدیل آن به چند مسئله با ابعاد کوچک‌تر در حوزه فرکانس، قابل حل گردید. نتایج شبیه‌سازی عدم نیاز به دینامیک مسیر پیشرو همانند روش‌های موجود را نشان داد. از محاسن این روش بی‌نیازی و مقاوم بودن آن نسبت به تغییر دینامیک مسیر ثانویه بود که این موضوع نیز با شبیه­سازی تأیید گردید. در گام آخر نیز با ترکیب روش اخیر و روش FXLMS روشی پیشنهاد گردید که هرچند به عنوان تخمین اولیه به دینامیک مسیر ثانویه نیاز داشت، اما با تغییرات آهسته مسیر ثانویه خود را وفق می­داد. از مزایای این روش نسبت به روش اول، پاسخ سریع به تغییرات دینامیک مسیر پیشرو بود که این موضوع به علت ساختار برگرفته آن از روش FXLMS است.

سپاسگزاری

نگارندگان بدین وسیله از پژوهشگاه فضای مجازی که طی قرارداد شماره 500/17165/ت حمایت بخشی از این تحقیق را بر عهده گرفته­اند، تشکر می­نمایند.



[1]تاریخ ارسال مقاله  : 12/09/1391

تاریخ پذیرش مقاله : 28/01/1392

نام نویسنده مسئول : بهروز رئیسی

نشانی نویسنده مسئول : ایران – شیراز – خیابان زند – دانشگاه شیراز – دانشکده برق و کامپیوتر



[1] Active Noise Control

[2] Quiet zone

[3] Narrow-band Multi-tonal Signals

[4] Agent

[5] Interaction

[6] Environment

[7] Reward signal

[8] Punishment

[9] Reinforcement signal

[10] Action

[11] State

[12] Optimal Policy

[13] Off-policy

[14] Temporal Difference

[15] Discount Rate

[16] Broad-band

[17] Filtered-X Least Mean Square

[18] Forward Path

[19] Secondary Path

[20] Offline

[21] Narrow-band Multi-tonal Signals

[22] ε-greedy

[23] Applying

[24] Divide & Conquer

[25] Low Pass Filte

[26] Adaptive Q-Learning ANC

[27] Mean Square Error

[28] Filtered-X Recursive Least Squares

[29] Fast Fourier Series

[30] Inverse Fast Fourier Series

[31] Discrete cosine transforms

[32] Discrete Hartley transforms

[33] Simultaneous Perturbation Stochastic

Approximation

[34] Steepest Descent

[35] Power Spectral Density

 
[1]     Beranek, L., Ver, I., Noise and Vibration Control Engineering: Principles and Applications. New York: Wiley, 1992.
[2]     Harris, C., Handbook of Acoustical Measurements and Noise Control, 3rd Ed., New York: McGraw-Hill, 1991.
[3]     Lueg, P., "Process of silencing sound oscillations", USA Patent, June 1936.
[4]     Landaluze,  J.,  Portilla, I., Pagalday, J., A. Martinez, and R. Reyero, "Application of active noise control to an elevator cabin", Control engineering practice, Vol. 11, No 12, pp. 1423– 1431, 2003.
[5]     Khorshidy, S.,  Karimi, M., "Simulation of sound propagation, calculation of impulse response and comparison of multichannel active noise control algorithms in an enclosure", in 7th International Symposium on Transport noise and vibration, St. Petersburg, Russia, 2004.
[6]     Matsuura, T., Hiei, T., Itoh, H., Torikoshi, K., "Active noise control by using prediction of time series data with a neural network", in IEEE International Conference on Intelligent Systems for the 21st Century, Systems, Man and Cybernetics, Vancouver, BC , Canada, pp. 2070-2075, 1995.
[7]     Emborg, U. , "Cabin noise control in the saab 2000 high-speed turboprop aircraft", in Proceedings of  ISMA 23, pp. 13–25, 1998.
[8]     Johansson, S., Claesson, I. , Nordebo, S. , Sjösten, P., "Evaluation of multiple reference active noise control algorithms on dornier 328 aircraft data", IEEE Transactions on Speech and Audio Processing, Vol. 7, No. 4, pp. 473– 477, 1999.
[9]     Sjösten, P., Johansson, S., Lagӧ, T., Claesson, I., "Active noise control in a twin-engine patrol boat",  in Proceedings of Inter-Noise 96, Liverpool, pp. 1199– 1202, 1996.
[10]  Gan, W. , Kuo, S., "An integrated audio and active noise control headset", IEEE Transactions on Consumer Electronics, Vol. 48, No. 2, pp. 242– 247, 2002.
[11]  Raeisy, B., Golbahar Haghighi, S., "Active Noise Controller with Reinforcement Learning", presented at the The 16th CSI International Symposiums on Artificial Intelligence & Signal Processing (AISP 2012), Shiraz,  pp. 074-079, 2012.
[12]  Sutton, R., Barto, A., Reinforcement Learning:An Introduction. Cambridge, MA: MIT Press, 1998.
[13]  Kaelbling, L. P., Littman, M. L., Moore, A. W., "Reinforcement learning: A survey", Journal of Artificial Intelligence Research, Vol. 4, No. 1, pp. 237–285, 1996.
[14]  Kuo, S. M.  and D. R. Morgan, "Active noise control: a tutorial review", in IEEE Proceedings 87, pp. 943-973, Jun 1999.
[15]  Burgess, J. C. , "Active sound control in a duct: A computer simulation", J. Acoust. Soc. Amer., Vol. 70,  No. 3,  pp. 715–726, 1981.
[16]  Even, G., Naor, J. S., Rao, S., Schieber, B., "Divide-and-conquer approximation algorithms via spreading metrics", Journal of the ACM (JACM), Vol. 47, No. 4, pp. 585-616, 2000.
[17]  Ahmed, N., Natarajan,  T.,  Rao, K. R., "Discrete cosine transform",  IEEE Trans. Comput, Vol. 100, No. 1, pp. 90–93, 1974.
[18]  Bracewell, R. N., "The fast Hartley transform",  in Proc. IEEE, pp. 1010–1018, Aug. 1984.
[19]  Zhou, L.,  Zhang, Q. Z., Li, X. D., Gan, W. S., "On the use of an SPSA-based model free feedback controller in active noise control for periodic disturbances in a duct",  Journal of Sound and Vibration, Vol. 317, No. 3, pp. 456–472, 2008.
[20]  Spall, J. C., "Multivariate stochastic approximation using a simultaneous perturbation gradient approximation", IEEE Transactions on Automatic Control, Vol. 37, No. 3, pp. 332-341, 1992.
[21]  Qizhi, Z., Yongle, J., "Active noise hybrid feedforward/feedback control using neural network compensation", Journal of vibration and acoustics, Vol. 124, No. 1, pp. 100-104, 2002.
Zhou, Y. L., Zhang, Q. Z., Li, X. D., Gan, W. S.,  "Analysis and DSP implementation of an ANC system using a filtered-error neural network", Journal of Sound and Vibration, Vol. 285, No. 7, pp. 1–25, 2005.