An Intelligent Energy-Efficient Firefighting Strategy in Mobile WSNs

Document Type : Research Article

Authors

Department of Electrical Engineering, Faculty of Engineering, University of Kurdistan, Sanandaj, Iran

Abstract

With the increased scope of fires and the widespread destruction of the environment and densely populated urban areas in recent years, researchers have investigated the adoption of rapid and effective firefighting solutions, particularly those based on wireless sensor networks (WSNs). In fact, by evaluating various statistical data and developing a new model of sensors, equipment, and intelligent technologies in a fire sensor network, an effective step toward controlling frequent fires on a wide scale and reducing environmental damage can be taken. In the proposed model, the mobile sensors or firefighting robots based on a fuzzy Q-learning (FQL) algorithm and using two learning strategies in the sensor network, namely partial and perfect, could be used to  surround fire in firefighting operations. We also formulate a sensor mode selection strategy as an optimization problem to maximize the lifetime of the energy harvesting-enabled WSN. Furthermore, we determine optimal upper and lower bounds for the number of active sensors in the fire detection system, guaranteeing that the target detection and false alarm probabilities are achieved. Computer simulations show that using such a solution in the optimal selection of moving sensors and determining the moving trajectory in rapid firefighting is effective.

Keywords


  • مقدمه[1]

آتش‌سوزی، یکی از خطرناک‌ترین پدیده‌هایی است که با زیان‌های شایان توجه جانی و مالی همراه است. همه‌روزه آتش‌سوزی‌های بسیاری‌ در نقاط مختلف جهان رخ می‌دهد که موجب از بین رفتن انسان‌ها و به بار آمدن زیان‌های فراوان زیست‌محیطی می‌شود. با توجه به اینکه اقدامات شناسایی و اطفای حریق در لحظات اولیة شروع حریق دارای اهمیت زیاد و حیاتی است، امروزه طراحی سیستم‌های سریع و کارا بسیار شایان توجه قرار گرفته است. در سال‌های اخیر نیز تحقیقات فراوانی بر این مسئله، به‌‌ویژه در سطح جنگل‌ها و مناطق شهری پرتراکم متمرکز شده است. کشورهای مختلف با برنامه‌ریزی و سرمایه‌گذاری در بخش فناوری اطلاعات و ارتباطات و نیز گسترش شبکه‌های حسگر بی‌سیم[1] (WSN)، پروژه‌های مختلفی را برای حفاظت منابع طبیعی در مقابله با آتش‌سوزی به اجرا درآورده‌اند و بدون تردید در آیندة نزدیک، شبکه‌های حسگر بی‌سیم و اینترت اشیا[2] به‌عنوان فناوری‌های کلیدی در توسعة شبکه‌های نظارت محیطی مطرح خواهند شد [4-1]. در سال‌های گذشته، شبکه‌های حسگر بسیاری با پوشش رادیویی گسترده‌، به‌ویژه مبتنی بر فناوری زیگبی[3] و فراپهن باند[4] (UWB) پیشنهاد داده شده‌اند [5،6]. مساحت درخور توجهی از کرة زمین را کوهستان‌ها، مناطق جنگلی و شهری پرتراکم تشکیل داده است و معمولاً دسترسی به این مناطق به شدت سخت‌تر از مناطق بیابانی خواهد بود. همچنین، این مناطق گسترده اکثراً جمعیت یا پوشش گیاهی پرتراکم دارند که مستعد آتش‌سوزی‌اند. استفاده از شیوه‌های نوین در اطفای حریق و بررسی هوشمند مناطق مذکور می‌تواند راهکار بسیار مناسب، سریع و دقیق برای آتشنشان‌ها باشد. واضح است برای اینکه در مناطق با دسترسی سخت از وقوع آتش اطلاع حاصل شود، مراجعة حضوری بسیار سخت و در بیشتر مواقع کند و پرهزینه است؛ بنابراین، کاهش حضور فیزیکی به‌ویژه در مناطق صعب‌العبور و مدیریت بهینة اقدامات اطفای حریق در لحظات اولیة آتش‌سوزی، محوری‌ترین نکات در بیان ضرورت انجام تحقیقات در این زمینه است. با این توضیحات، امروزه مدل‌سازی یک سامانة کاربردی هوشمند برای شناسایی و کنترل سریع آتش‌سوزی، یک انتخاب نیست، بلکه یک ضرورت است.

 

 

واژگان اختصاری

BS

Base Station

CH

Cluster Head

DC

Decay Coefficient

EEP

Exploration-Exploitation Policy

EH

Energy Harvesting

FQL

Fuzzy Q-Learning

FIS

Fuzzy Inference System

HetNet

Heterogeneous Network

IoT

Internet of Things

MARL

Multi-Agent Reinforcement Learning

MAS

Multi-Agent Systems

PEL

Perfect Learning Policy

PAL

Partial Learning Policy

QL

Q-Learning

RL

Reinforcement Learning

SN

Sensor Node

SE

Square Error

TS

Takagi-Sugeno

UWB

Ultra Wide-Band

WSN

Wireless Sensor Network

 

  • پیشینة تحقیق

در راهکارهای ارائه‌شده برای شناسایی حریق، از اطلاعات حسگرهای ثابت و متحرک [10-7] جمع‌آوری داده در سطح ناحیة تحت پوشش شبکة حسگر استفاده می‌شود که در سریع‌ترین زمان ممکن عوامل و نقاط آتش‌سوزی را تخمین می‌زنند و به پایگاه‌های آتشنشانی اطلاع می‌دهند. به این ترتیب، پیش‌بینی ابعاد آتش‌سوزی و درنتیجه روند عملیات اطفای حریق با برنامه‌ریزی دقیق‌تری امکان‌پذیر خواهد شد. در مواقعی که آتش‌سوزی در مکان‌های صعب‌العبور رخ داده باشد، به‌کار‌گیری حسگرهای متحرک یا پهبادهای آتشنشان با قابلیت حمل مواد ضد آتش ضروری است. با تحلیل و طراحی یک مدل نوین از حسگرها، تجهیزات و تکنولوژهای هوشمند به‌ویژه برپایة سیستم‌های چندعامل[5] (MAS) در یک شبکة حسگری آتشنشان، می‌توان گام مؤثری در راستای کنترل آتش‌سوزی‌های مکرر و خسارت‌های زیست‌محیطی فراوان آن برداشت.

سیستم‌های چندعامل شامل چندین عامل[6] هوشمند در یک محیط‌اند که هرکدام رفتار مستقلی دارند و با دیگر عامل‌ها هماهنگ‌اند [10،11]. این سیستم‌ها می‌توانند به‌عنوان روش جایگزین سیستم‌های متمرکز آتشنشان ظاهر شوند که در آنها چندین عامل هوشمند، وقوع آتش‌سوزی در یک محیط را ازطریق سنسورهای خود درک می‌کنند و رفتارهای مستقل از خود نشان می‌دهند [12]. یکی از زمینه‌هایی که به‌تازگی سیستم‌های چندعاملی را در تحقیقات و مسائل کاربردی مطرح کرده است، مسئلة کنترل و هدایت حسگرها یا روبوت‌های متحرک مبتنی بر سیستم‌های کنترل سطح پایین[7] است. در مرجع [13] یک الگوریتم مبتنی بر درخت باینری برای طراحی مسیر حرکت روبوت‌ها استفاده شده است. این نوع رویکرد مبتنی بر آگاهی کامل از دینامیک سیستم است و این ساختار با توجه به محدودیت‌های زمانی و مکانی در مسیریابی حریق، قابل پیاده‌سازی نیست. یادگیری تقویتی[8] (RL) یکی از محبوب‌ترین روش‌های یادگیری در سیستم‌های چندعامل یا MAS است. هدف از یادگیری تقویتی چندعامل[9] (MARL) به حداکثر رساندن مقادیر تجمعی پاداش[10] است. به این ترتیب، عامل‌ها می‌توانند با محیط ارتباط برقرار کنند و آن را مطابق با الگوی پاداش تغییر دهند. هر عامل در هر مرحلة یادگیری، یک کنش یا اقدام[11] را انتخاب می‌کند و محیط را به سمت حالت[12] جدید سوق می‌دهد [14]. در این فرایند، تابع پاداش[13] همواره کیفیت گذر حالت را ارزیابی می‌کند [15]. در هر صورت، عملکرد سیستم‌های چندعامل همواره تأثیرگرفته از ابعاد مسئله است و با افزایش تعداد حالت‌ها یا عامل‌ها، به محاسبات و حافظة بیشتری نیاز خواهد داشت. در بیشتر رویکردها، به بازنمایی دقیق مقادیر جفت حالت - کنش به فرم جداول جستجو نیاز است که این مسئله به‌منزلۀ یک مانع بزرگ، کاربرد این روش‌ها را به مسائل کوچک یا گسسته تقلیل داده است [16]. واضح است در عملیات اطفای حریق، متغیرهای حالت می‌توانند مقادیر با تنوع بیشتر و در یک بازة‌ پیوسته را به خود بگیرند [9]. این مشکل با تقریب توابع ارزش[14] مدیریت می‌شود [17]. برای مقابله با چنین مشکلی، الگوریتم‌های MARL برپایة شبکه‌های عصبی نیز پیشنهاد شده‌اند که براساس مفهوم تعمیم‌یافتة جدول کیفیت یا  [18]، تقریب گسسته برای فضای بزرگ حالت - کنش [19]، کوانتیزاسیون برداری برای حالت‌ها یا کنش‌های پیوسته [20]، تکرار تجربه برای MAS [21]، تقریب مبتنی بر یادگیری  و شبکة گاوسی نرمالیزه [22] و پیش‌بینی پارامترها در عامل‌های ناهمگن [23] نتایج پذیرفتنی حاصل شده است. در مراجع [24،25] نیز از یک مدل دوگانة شبکة عصبی برای نشان‌دادن تابع ارزش و کنترل کننده بهره گرفته شده است. با این حال، موفقیت استراتژی‌های پیشنهادی بستگی زیادی به کاوش کافی دارد و خود این مسئله نیز تابعی از اندازة شبکة عصبی و داده‌های آموزش شبکه است. در تحقیق کنونی ضمن پیشنهاد استراتژی حرکتی مبتنی بر MARL برای حسگرهای متحرک یا روبوت‌های آتشنشان و همچنین ارائة استراتژی بهینة انتخاب این روبوت‌ها براساس محدودیت انرژی، مدل واقعی‌تری از شبکة اطفای حریق در نظر گرفته شده است. درواقع، استراتژی حرکتی یک نسخة اصلاح‌شده برپایة الگوریتم یادگیری  [26،27] است که در آن تقریب فازی - خطی فضای حالت پیوسته اعمال شده است.

به این ترتیب ساختارها و الگوریتم‌های مطرح‌شده در زمینة شناسایی و اطفای حریق در مراجع مختلف [4،5،12،30] در شرایطی ارتقا داده شده‌اند که یا توپولوژی شبکة حسگری در فرایندهای مربوطه ثابت بوده یا روش‌های متمایزی [18-25] با محدودیت‌های مذکور در پیش گرفته شده است؛ اما در عمل، پدیدة حریق نسبتاً تصادفی و آنی است که هم پیاده‌سازی الگوریتم‌های بهینه‌سازی سبُک در عملیات شناسایی و هم تغییر سریع توپولوژی شبکه و چینش گره‌های حسگری در عملیات اطفای حریق ضروری است؛ واقعیتی که به شدت بر دامنه و پراکندگی حریق اثر خواهد گذاشت و در پژوهش‌های مختلف ازجمله مرجع [30] نادیده گرفته شده است. بنابراین، ارائة یک مدل شبکه با ویژگی‌های فوق شامل استراتژی‌های شناسایی مبتنی بر حسگرهای ثابت و اطفای حریق مبتنی بر حسگرها یا روبوت‌های متحرک، اساس نوآوری در تحقیق کنونی است. درواقع، تأثیر الگوریتم‌های مدیریت حسگرها و عامل‌های متحرک با کاربردهای شناسایی یا اطفای حریق مطالعه شده‌اند؛ اما تا کنون پژوهشی مبنی بر مدل‌سازی فرایند هوشمند اطفای حریق بر پایة انتخاب و هدایت بهینة روبوت‌های آتشنشان با قابلیت برداشت انرژی محیطی مبتنی بر فاکتور سطح انرژی و الگوریتم یادگیری فازی - کیو در یک شبکة حسگری با توپولوژی دینامیک و پویا صورت نگرفته است؛ بنابراین در مدل پیشنهادی، تأثیر فرایند مشارکتی شناسایی حریق با حسگرهای ثابت و عملیات بهینة اطفای حریق با حسگرهای متحرک یا روبوت‌های آتشنشان بر پایة الگوریتم یادگیری فازی - کیو و به کمک دو سیاست یادگیری کامل و جزئی در شبکة حسگری با توپولوژی پویا مطالعه خواهند شد. در این تحقیق، محدودیت‌های انرژی در حسگرها نیز با طراحی مکانیزیم بهینة انتخاب روبوت‌های آتشنشان و با فرض قابلیت برداشت انرژی‌های محیطی قبل از کنترل حرکت به سمت حریق، در نظر گرفته خواهند شد. با توضیحات فوق در مجموع، نوآوری اصلی این مقاله در سه بخش تفکیک می‌شود:

  • محاسبة کران‌های بالا و پایین برای تعیین تعداد حسگرهای ثابت فعال در تصمیم‌گیری مشارکتی و با هدف دستیابی به احتمالات مشارکتی آشکارسازی و اعلام اشتباه حریق مطلوب.
  • محاسبة احتمال بهینة انتخاب مُد عملکرد روبوت‌های آتشنشان در یک شبکة حسگری دینامیک به صورت‌های «شارژ یا برداشت انرژی» یا «حرکت» و براساس تعریف یک مسئلة سبُک بیشینه‌سازی طول عمر شبکه[15] با محدودیت انرژی روبوت‌ها.
  • طراحی استراتژی کنترل حرکت با هدف محاصره و درنهایت اطفای سریع حریق برای سیستم MAS متشکل از حسگرهای متحرک و براساس الگوریتم فازی مبتنی بر یادگیری .

 

3- مدل شبکه حسگر بی‌سیم

در اینجا یک شبکة حسگر با ساختار سلسله‌مراتبی دولایة ناهمگن[16] (HetNet) متشکل از ایستگاه‌های پایه[17] (BSs)، سرخوشه‌ها[18] (CHs) یا چاهک‌ها[19] جمع‌آوری و پردازش اولیة داده‌ها و نیز گره‌های حسگر[20] (SNs) ثابت و متحرک توزیع‌شده در سراسر شبکه به‌عنوان مدل پایه مطابق با شکل (1) تعریف می‌شود. براساس این، حسگرهای شبکه به برقراری ارتباط مستقیم با نزدیک‌ترین ایستگاه پایه نیازی ندارند؛ بلکه در این ساختار، حسگرها به خوشه‌ها یا سلول‌هایی تفکیک می‌شوند که در هر خوشه یا کلاستر، یک چاهک یا سرخوشه انتخاب می‌شود. سرگروه‌ها وظیفة جمع‌آوری اطلاعات حسگرهای ثابت هر گروه را بر عهده دارند و در حقیقت نقش رله‌های ارتباطی به‌عنوان واسطه‌های انتقال اطلاعات بین حسگرها و ایستگاه‌های پایه را ایفا می‌کنند. این‌ کار با هدف کاهش ترافیک اطلاعات ارسالی از حسگرها به ایستگاه پایه و درنتیجه، بهبود بازده انرژی شبکه انجام می‌شود. معیارهای مختلف انتخاب سرخوشه و مدیریت پویای توپولوژی شبکه در تحقیقات بسیاری بحث شده‌اند [28]. در مدل ارائه‌شده، هر حسگر دارای یک ناحیة پوشش یا شعاع حسگری است که به نقاط موجود در آن محدوده احاطة کامل دارد. یکی از اهداف شبکه‌های حسگری این است که پوشش حداکثری در یک فضای معین تأمین شود.

در این مدل، گره‌های حسگری براساس کارکردهای متفاوت، شناسایی و اطفای حریق به‌ترتیب به دو دستة حسگرهای ثابت و متحرک (روبوت‌های آتشنشان) تفکیک می‌شوند؛ به طوری که در یک خوشة مفروض به تعداد  حسگر و  روبوت وجود دارد. در این مقاله، به‌طور کلی برای به حداقل رساندن مصرف انرژی حسگرهای ثابت ویژة شناسایی حریق از دو حالت خواب و بیداری و همچنین با هدف افزایش طول عمر روبوت‌های اطفای حریق دو مد عملکرد «حرکت» و «برداشت انرژی» تعریف شده است. گفتنی است در عمل بر طبق سیاست بهینة اطفای حریق، روبوت‌های اطفای حریق با مد عملکرد «حرکت»، در یک خوشه و به شکل محلی اقدام به محاصرة آتش خواهند کرد و درنهایت پس از عملیات اطفای حریق پیکره‌بندی مجدد شبکة حسگری صورت می‌گیرد.

 

 

شکل (1): مدل پایة شبکة حسگر با ساختار سلسله‌مراتبی شامل سرخوشه‌ها یا چاهک‌ها و حسگرهای ثابت و متحرک درون شبکه

 

4- تعیین استراتژی و مسئلة بهینه‌سازی

در مدل پیشنهادی، حسگرهای متحرک یا روبوت‌های آتشنشان بر پایة الگوریتم یادگیری فازی - کیو و به کمک تعریف دو سیاست یادگیری کامل[21] (PEL) یا یادگیری جزئی[22] (PAL) در شبکة حسگری به محاصرة آتش در عملیات اطفای حریق قادر خواهند بود. در سیاست PEL اولویت با یادگیری سریع زاویة حرکت روبوت منتخب ( ) نسبت به شعاع حرکتی آن ( ) در هنگام حرکت به سمت آتش است؛ اما در سیاست PAL فرایند یادگیری دو فاکتور مذکور در طول مسیر و به تدریج صورت می‌گیرد. در مدل پیشنهادی، محدودیت‌های انرژی در روبوت‌ها نیز با طراحی مکانیزیم بهینة انتخاب مُد عملکرد و با فرض قابلیت برداشت انرژی[23] (EH) محیطی قبل از کنترل حرکت به سمت حریق در نظر گرفته خواهند شد. نتایج شبیه‌سازی‌های کامپیوتری، مؤثربودن اعمال چنین راهکاری را در انتخاب بهینة مُد عملکرد روبوت‌های آتشنشان و همچنین طراحی مسیر بهینة حرکت در اطفای سریع حریق نشان می‌دهند. در اینجا اطلاعات یا گزارش‌های ارسالی حسگرها به سرخوشه‌ها برای آشکارسازی مطمئن آتش در یک منطقة خاص و با فرض احتمال اعلام اشتباه استفاده می‌شوند. در این موارد با توجه به شرایط محیطی و تراکم حسگرها معمولاً از تست نظریة باینری[24] بهره گرفته می‌شود. به این ترتیب هر حسگر تصمیم باینری خود را از میان حالات وقوع حریق یا عدم وقوع حریق و براساس پردازش سیگنال‌های محیطی مانند دما، با احتمال آشکارسازی  و احتمال اعلام اشتباه  ثبت خواهد کرد. در اینجا فرض می‌شود تصمیمات باینری مربوط به  حسگر از پدیدة وقوع حریق در یک خوشة مدنظر، مستقل از هم و به‌ترتیب با احتمالات آشکارسازی و اعلام اشتباه حریق  و  ( ) هستند و اتخاذ تصمیم مشارکتی نهایی براساس ترکیب گزارشات دریافت‌شده در سرخوشه مطابق با روابط (1) و (2) صورت خواهد گرفت:

(1)

 

(2)

 

 

که در آن  شاخص مشارکت حسگر  در تصمیم‌گیری است و به عبارت دیگر مدهای خواب (غیرفعال) یا بیداری (فعال) به‌ترتیب برابر با مقادیر صفر و یک هستند. با این توضیحات فرض می‌شود در یک لحظة خاص تعداد حسگرهای فعال با شاخص مشارکت یک در یک خوشه برابر با  است؛ بنابراین، براساس روابط (1) و (2) و با فرض یکسان‌بودن عملکرد همه حسگرهای ثابت تحت پوشش یک خوشه (  و )، کران‌های بالا و پایین برای مقادیر مطلوب  برای دستیابی به احتمالات مشارکتی آشکارسازی و اعلام اشتباه حریق معین استخراج می‌شوند:

 

(3)

 

 

واضح است این میزان مشارکت حسگرهای ثابت در یک خوشه براساس مکانیسم‌های متداول خواب و بیداری حسگرهای ثابت و غیرمتحرک در یک شبکة حسگری ایستا در تحقیقات انجام‌شده مانند مرجع [30] تحقق‌پذیر است. به این ترتیب، هر سرخوشه قادر است براساس تجمیع سیگنال‌های دریافتی از  حسگر بیدار از میان  حسگر ثابت نسبت به تعیین مُد عملکرد  حسگر متحرک یا روبوت آتشنشان اقدام کند.

 

4-1- استراتژی بهینة انتخاب مُد عملکرد روبوت‌ها

در این بخش، یک مسئلة انتخاب مُد عملکرد روبوت آتشنشان در شبکة حسگر بی‌سیم مبتنی بر برداشت انرژی مطرح می‌شود؛ به طوری که بیشینة طول عمر شبکه تضمین شود. درواقع، هر سرخوشه در تلاش است روبوت‌های آتشنشان مربوطه را در دو مدل عملکردی حرکت یا برداشت انرژی دسته‌بندی کند. به این ترتیب، یک مسئلة سبُک بیشینه‌سازی طول عمر شبکه با محدودیت کیفیت سرویس و طول عمر روبوت به‌عنوان یک مسئلة بهینه‌سازی در نظر گرفته می‌شود. سپس یک احتمال مُد بهینه براساس چارچوب رایج در مسائل بهینه‌سازی محدب پیشنهاد می‌‌شود. در اینجا فرض شده است روبوت‌های آتشنشان دارای قابلیت‌های حرکت و برداشت انرژی محیطی به‌ویژه انرژی خورشیدی [29،30] هستند و در بازة زمانی اتخاذ این استراتژی فقط یکی از این مُدهای عملکرد اشاره‌شده فعال‌اند. به عبارت دیگر، در زمان انتخاب روبوت‌های آتشنشان، روبوت‌هایی که سطح انرژی قابل قبول دارند با احتمال بیشتری برای حرکت به سمت مکان آتش‌سوزی انتخاب می‌شوند و سایر روبوت‌های خوشة مربوطه در مُد برداشت یا شارژ انرژی خواهند بود. واضح است این انتخاب‌ها در حالت ایدئال با مسئلة بهینه‌سازی انجام‌پذیرند. این امکان با در نظر گرفتن یک حد آستانه برای هر روبوت آتشنشان در انتهای این بخش فراهم خواهد شد و به این ترتیب محدودیت‌های عملی نیز در اعمال این استراتژی تا حد زیادی برداشته خواهند شد. با این تفاسیر، مسئلة بهینه‌سازی اشاره‌شده به‌صورت رابطة (4) نوشته می‌شود که مبنای استراتژی بهینة انتخاب مُد عملکرد (حرکت یا برداشت انرژی) هر روبوت آتشنشان است:

(4)

 

,

 

که تعریف پارامترها و نمادهای اشاره‌شده، در جدول (1) آمده است. محدودیت‌های مسئلة تعریف‌شده شامل یک حد آستانة کمینه برای انرژی در هر روبوت آتشنشان، مقادیر گسسته برای پارامترهای بهینه‌سازی  و  از مجموعه اعداد  و درنهایت متریک‌های کنترل کمینة کیفیت آشکارسازی جمعی ( ) و بیشینة احتمال اعلام اشتباه حریق جمعی ( ) در یک خوشه است. پارامترهای گسستة تعریف‌شده، مسئلة بالا را به یک مسئلة برنامه‌ریزی صحیح[25] تبدیل کرده است که در این مسائل معمولاً با نگاشت پارامترهای بهینه‌سازی  و  به بازة پیوسته ، می‌توان به یک مسئلة بهینه‌سازی ساده‌شده[26] به‌صورت زیر دست یافت:

(5)

 

 

 

که با تعریف عبارت  به‌عنوان تابع هدف به شکل رابطة (6)، داریم:

(6)

 

 

جدول (1): تعریف پارامترهای استراتژی بهینة انتخاب مُد عملکرد

 

انرژی اولیة هر روبوت آتشنشان

 

میزان یک واحد انرژی ذخیره‌شدة متوسط در برداشت انرژی

 

میزان یک واحد انرژی مصرفی متوسط در صورت حرکت

 

آستانة مفروض برای کمینة انرژی در هر روبوت آتشنشان

 

احتمال آشکارسازی آتش در یک خوشه

 

احتمال آشکارسازی آتش در یک حسگر ثابت

 

آستانة مفروض احتمال آشکارسازی آتش در یک خوشه

 

احتمال اعلام اشتباه حریق در یک خوشه

 

احتمال اعلام اشتباه حریق در یک حسگر ثابت

 

آستانة مفروض احتمال اعلام اشتباه حریق در یک خوشه

 

تعداد کل حسگرهای ثابت در یک خوشه

 

تعداد کل حسگرها یا روبوت‌های متحرک در یک خوشه

اکنون ضمن ساده‌سازی تابع هدف کلی در مسئلة بهینه‌سازی و با در نظر گرفتن نکتة  و همچنین لحاظ‌کردن اثر آن به شکل محدودیت ، مسئلة بهینه‌سازی نهایی به شکل رابطة (7) بازنویسی می‌شود:

(7)

 

 

 

 

در ادامه، از روش مبتنی بر تابع لاگرانژ به‌منظور حل این مسئلة بهینه‌سازی محدب بهره خواهیم گرفت که درنتیجة اعمال این روش، مطابق با رابطة (8) تابع لاگرانژ معادل به دست می‌آید.

(8)

 

 

که در آن ، ، ، ، ،  ضرایب لاگرانژ مرتبط با محدودیت‌های مسئله‌اند. در این تحقیق، فرض می‌شود مُدهای عملکرد تعریف‌شده برای هر روبوت آتشنشان به‌صورت هم‌زمان فعال‌سازی نمی‌شوند (به عبارت دیگر )؛ بنابراین، نوشته می‌شود:

(9)

 

 

به این ترتیب، پس از اعمال شرایط KKT و ساده‌سازی ریاضی مقدار بهینة احتمال حرکت روبوت آتشنشان ( ) به‌صورت زیر بیان می‌شود:

 

(10)

 

 

بنابراین، مُد عملکرد روبوت ام در یک خوشة مفروض با احتمال  در حالت حرکت به سمت حریق و در غیر این صورت در حالت شارژ یا برداشت انرژی خواهد بود.

 

4-2- استراتژی هوشمند کنترل حرکت ربات‌های آتشنشان

عموماً انواع مختلفی از الگوریتم‌های تقویتی یا RL وجود دارند که برای اتخاذ استراتژی‌های هوشمند در حوزه‌های مختلف ازجمله شبکه‌های حسگری بی‌سیم [22] استفاده می‌شوند. یکی از محبوب‌ترین الگوریتم‌ها، الگوریتم یادگیری کیو[27] است. درواقع، الگوریتم یادگیری کیو با استفاده از تخمین پیوسته[28]، جدولی از تمامی مقادیر  را محاسبه می‌کند که آن را جدول  می‌نامند. باید توجه داشت  نشان‌دهندة نتایج مورد انتظار است که به‌‌عنوان فاکتور کیفیت با بردار حالت  بعد از انجام کنش  و دریافت پاداش به دست می‌آید. براساس این، جدول  محاسبه‌شده طبق فرمول‌ بازگشتی (11) به‌روزرسانی می‌شود:

 

(11)

 

که در آن:

(12)

 

 

درواقع، بیشینه‌کردن فاکتور کیفیت به بالاترین کیفیت دریافتی توسط هر حسگر متحرک آتشنشان به متغیر کنش  مرتبط است که ممکن است در حالت بعدی  رخ دهد. در این رابطه، پارامتر  نیز به‌عنوان نرخ یادگیری تعریف شده است. عملکرد الگوریتم یادگیری کیو در حالت پایه با پیگیری سنجیدة تاریخچة فعال‌سازی حالات، به طرز چشمگیری امکان بهبود دارد. این نکته با پارامتر صلاحیت[29]  کنترل می‌شود و در حالت کلی این روش را روش یادگیری غنی‌شده   می‌نامند. پارامتر  بعد از فعال‌سازی حالت، برای هر حالت بزرگ‌تر می‌شود و بعد از آن، به‌صورت نمایی کاهش می‌یابد تا جایی که حالت مربوطه دیگر اتفاق نیفتد. به این ترتیب،‌ الگوریتم یادگیری کیو در مدل تعریف‌شده، به حسگرهای متحرک یا پهپادهای آتشنشان (شکل (2)) این اجازه را می‌دهد که از تعامل با محیط،‌ به‌صورت لحظه‌ای آموزش ببینند؛ این نوع از فرایند یادگیری توسط سازوکار تشویق و تنبیه صورت می‌گیرد. با ترکیب راهکارهای کنترل فازی و الگوریتم یادگیری کیو[30] (FQL)، یک روش کارا برای کاربردهای عملی تحقق‌پذیر است (شکل (3)). در حقیقت، تفاوت عمدة بین الگوریتم یادگیری کیو اصیل و الگوریتم یادگیری FQL را می‌توان در روش ارائة اطلاعات در مدل‌ها پیدا کرد. الگوریتم یادگیری FQL از روش‌های فازی برای ذخیره‌سازی اطلاعات جستجوشده استفاده می‌کند؛ در حالی که الگوریتم یادگیری کیو، آنها را در یک جدول جستجوی ساده (جدول ) و به‌صورت قواعدی گسسته نگهداری می‌کند. در الگوریتم یادگیری FQL، سیستم استنباطی فازی[31] (FIS) با مجموعه‌ای از قواعد یا ضوابط  و کنش‌های رقابتی برای هر ضابطه شناخته می‌شود.

 

 

شکل (2): مدل آزمایشگاهی شبکة حسگر آتشنشان شامل ایستگاه پایه، سرخوشه‌ها و حسگرهای توزیع‌شدة ثابت و متحرک

 

عامل یادگیری (یا همان حسگر متحرک) مجبور است بهترین نتیجه را برای هر ضابطه پیدا کند که این همان کنش با بهترین مقدار  بین کنش‌های گسستة ممکن برای هر ضابطه است. مقادیر  در مقداردهی اولیه، صفر قرار داده می‌شوند و معمولاً در ابتدای فرایند یادگیری قابل توجه نیستند. درواقع،‌ روبوت‌های آتشنشان براساس الگوریتم مبتنی بر یادگیری فازی با گام‌های حرکتی متغیر، به تدریج به سمت آتش حرکت می‌کنند. به این ترتیب، یک استراتژی هوشمند در شناسایی و اطفای حریق مبتنی بر شبکة‌ حسگر بی‌سیم برای هریک از گره‌های متحرک تصور می‌شود. برای تخمین سیاست بهینه[32] نیاز است مقدار تابع کنش - حالت[33]  تقریب زده شود؛ این عبارت، تابعی از مقادیر مورد انتظار در صورت انجام کنش‌های  در حالت مفروض  است که به‌طور کلی یک استراتژی بهینه با سیاست  را دنبال می‌کند.

 

شکل (3): بلوک دیاگرام الگوریتم یادگیری فازی - کیو (FQL)

 

الف( استراتژی کنترل حرکت براساس الگوریتم FQL

در این بخش‌، یک الگوی کنترل حرکت با هدف محاصره و درنهایت، اطفای سریع آتش برای سیستم MAS متشکل از حسگرهای منتخب یا همان ربات‌های آتشنشان و براساس الگوریتم فازی مبتنی بر روش یادگیری FQL طراحی می‌شود. درواقع، کنترل‌کنندة طراحی‌شده در هر حسگر منتخب براساس الگوریتم FQL، سیگنال اطلاعات آتش (در اینجا زاویة حرکتی) را به‌عنوان متغیر ورودی و پاداشی مثبت یا منفی متناسب با اثر حرکت خود در جهت تصادفی در شبکة حسگر دریافت می‌کند. به این ترتیب در یک بازة زمانی مشخص هر حسگر متحرک سعی دارد در طول حرکت‌های متوالی و تصادفی و با هدف نزدیک‌شدن به مکان آتش، مجموع مقادیر پاداش[34] خود را به بالاترین حد خود برساند. به‌طور کلی در این تحقیق، یک رویکرد کاربردی برای مسیریابی هوشمندانه براساس استراتژی RL و مبتنی بر اطلاعات محیطی برای هر حسگر متحرک اتخاذ شده است. به عبارت دیگر، اعمال قابلیت یادگیری از تجربیات گذشته در هر حسگر متحرک، شبکة حسگر آتشنشان را به یک شبکة هوشمند مبدل می‌کند. همان‌طور که اشاره شد، الگوریتم FQL که بر مبنای روش یادگیری - کیو تعمیم یافته است، الگوی تصمیم‌گیری را با مدل‌سازی مبتنی بر فازی ترکیب می‌کند که در نتیجة آن، حرکت مؤثر حسگر می‌تواند به شکلی کارآمد مدیریت شود. درواقع، در الگوریتم FQL یک سیستم استنباطی فازی (FIS) به کار گرفته شده است که از نظریة مجموعة فازی برای نگاشت ورودی‌ها به خروجی‌ها استفاده می‌کند. سیستم FIS استفاده‌شده در این تحقیق براساس مدل TS[35] مرتبه صفر طراحی شده است؛ زیرا نوع دیگر (مرتبه اول) علاوه بر پیچیدگی بیشتر، هزینه‌های محاسباتی بالایی می‌طلبد؛ بنابراین، برای هر ضابطة تعریف‌شده در سیستم FIS، عامل یادگیری باید بهترین نتیجه را مطابق با مقدار  (که در آن  عبارت فازی زبانی[36] و  کنش‌ گسسته برای امین ضابطه[37] تعریف شده است) پیدا کند. به عبارت دیگر، کنشی با بالاترین مقدار  را بین تمامی کنش‌های گسستة احتمالی، برای بردار اطلاعات ورودی  بیابد. در هر صورت، عامل یادگیری در راه‌اندازی اولیة الگوریتم با توجه به صفربودن مقادیر ، ممکن است کنش‌های پذیرفتنی نداشته باشد (مقادیر  در جدول جستجو  ذخیره شده‌اند). فرض می‌شود کنش برای هر ضابطه مطابق با سیاست بهره‌برداری - اکتشاف[38] (EEP) صورت گرفته است. با این سیاست، عامل یادگیری، آن کنشی که باور دارد بهترین است را در بیشتر موارد انتخاب می‌کند؛ اما گاه و بیگاه نیز به‌صورت اتفاقی عمل می‌کند تا شاید پاداش‌های لحظه‌ای بالاتری را دریافت کند. در اینجا از استراتژی  به‌عنوان سیاست EEP برای انتخاب کنش بهره گرفته می‌شود. همان‌طور که مشاهده شد، معماری FQL و اثر متقابل آن با محیط در شکل (3) نشان داده شده است. در این شکل،  کنش استنباطی (کنش خروجی سیستم تصمیم‌گیری FIS است که جهت حرکت را برای هر حسگر منتخب مشخص می‌کند) برای بردار حالت ورودی  است. همچنین تابع کیفیت  در این الگوریتم نیز براساس خروجی سیستم FIS تخمین زده می‌شود که از کیفیت (مقدار ) متعلق به کنش گسستة موضعی استنباط شده است و کنش پیوستة سراسری  را شکل می‌دهد. درواقع، تابع  مربوط به  (بردار حالت ورودی جدید بعد از انجام کنش  برای بردار حالت ورودی ) و پاداش دریافتی  از محیط،‌ با یکدیگر برای به‌روز‌رسانی مقادیر  در جدول  استفاده می‌شوند. در این حالت، برای تشخیص مقادیر لحظه­ای زاویة حرکت حسگر منتخب ( ) و شعاع حرکتی آن ( )، بردار ورودی  به سیستم FIS داده می‌شود و مطابق با ضوابط تعریف‌شده برای تعیین کنش یا اقدام ،‌ تابع کیفیت سیستم FIS به عبارت دیگر تابع  نیز محاسبه می‌‌شود.

 

ب( تنظیمات بلوک تصمیم‌گیری

برای یک حسگر متحرک، هر متغیر ورودی از بردار حالت دوبعدی  در سه زیرمجموعة فازی تقسیم‌بندی می‌شود. درواقع، به تعداد 9 ضابطه با توجه به توصیفات زبانی سه‌گانة کم ( )، متوسط ( ) و زیاد ( ) تعریف می‌شود. توصیفات زبانی متعلق به مجموعه‌های فازی مربوط به متغیرهای  و  است که به‌صورت توابع عضویت ( ) نشان داده می‌شوند.

 

الگوریتم (1): الگوریتم تکرارشوندة حرکت حسگر متحرک بر پایة FQL

1.      مقداردهی اولیه   در جدول Q (که در آن  و ). در اینجا  مجموعه تمام کنش‌های گسستة احتمالی برای هر ضابطه است.

2.       دریافت بردار حالت  (شامل زاویه و شعاع حرکت حسگر متحرک).

3.      محاسبة درجه صحت[39] بردار حالت  یا همان   برای تمام ضوابط که به‌صورت زیر تعریف می‌شود:  که . واضح است این مقدار براساس ضابطه ام و مجموعه‌های فازی یا توابع عضویت  تا  برای بردار حالت ورودی  محاسبه می‌شود.

4.      انتخاب یک کنش   برای هر ضابطه براساس سیاست EEP. به عبارت دیگر:

 

 

 

که در آن مقدار ، مصالحه بین بهره‌برداری و اکتشاف را (به‌ترتیب با احتمال‌های و ) مشخص می‌کند.

5.       محاسبة کنش استنتاجی  و کیفیت مربوط به آن  که به‌صورت زیر محاسبه می‌شود:

 

6.      اجرای کنش استنتاجی  و دریافت بردار حالت جدید .

7.      دریافت سیگنال تقویتی یا پاداش .

8.      محاسبة درجه صحت برای بردار حالت جدید  یا همان .

9.      محاسبة تابع ارزش براساس بردار حالت جدید:

 

10.   به‌روز رسانی کیفیت اولیه  برای هر ضابطه  ام و کنش :

 

که در آن ، نرخ یادگیری و  فاکتور کاهنده است.

11.    اتمام تکرار. در صورتی که همگرایی حاصل شده باشد، فرایند یادگیری متوقف می‌شود؛ در غیر این صورت به گام دوم برمی‌گردیم.

 

در اینجا، توابع عضویت گوسی استاندارد[40] برای بردار حالت  در نظر گرفته می‌شوند. توابع عضویت گوسی، به‌عنوان جایگزینی برای توابع عضویت مثلثی[41] مرسوم، به این منظور ارائه شده‌اند که قابلیت اطمینان و عملکرد سیستم را بهبود ببخشند. در هر دورة تصمیم‌گیری، عامل یا حسگر متحرک، بردار حالت فعلی را در نظر می‌گیرد و اقدام یا کنشی برای ورود به حالت شبکة‌ جدید انجام می‌دهد. به این ترتیب، یک سیگنال پاداش  (مقادیر ثابت مثبت یا منفی به‌ترتیب برای بهبود یا عدم بهبود کنش قبلی حسگر) دریافت می‌شود تا کیفیت این کنش را ارزیابی کند. اطلاعات آموخته‌شده ذخیره خواهد شد و فرایند یادگیری ادامه می‌یابد. خلاصه‌ای از این روش تکرارشونده برای یادگیری مسیر در الگوریتم (1) آمده است.

در ادامه، جمع‌بندی فرایند آشکارسازی و عملیات اطفای حریق مبتنی بر شبکة حسگری شامل حسگرهای ثابت و متحرک (روبوت‌های آتشنشان) و همچنین نحوة اعمال استراتژی‌های پیشنهادی تعیین مُد عملکرد و کنترل حرکت روبوت‌ها در الگوریتم (2) آمده‌اند.

 

الگوریتم (2):  فرایند آشکارسازی و اطفای حریق

1.     خوشه‌بندی شبکة حسگری و انتخاب سرخوشه‌ها به‌همراه تعیین مُدهای اولیة پیش‌فرض «خواب» برای حسگرهای ثابت و همچنین «برداشت انرژی» برای روبوت‌های متحرک.

2.     فعال‌سازی  حسگر از میان  حسگر ثابت براساس کران‌های بالا و پایین محاسبه‌شده در رابطة (3) با هدف دستیابی به احتمالات مشارکتی قابل قبول آشکارسازی و اعلام اشتباه حریق در هر خوشه.

3.     استراتژی بهینة انتخاب مُد عملکرد روبوت‌ها: تعیین مُد عملکرد  روبوت آتشنشان توسط سرخوشه‌ها براساس مقدار بهینة احتمال حرکت روبوت در رابطة (10).

4.       استراتژی هوشمند کنترل حرکت روبوت‌های آتشنشان: هدایت روبوت‌ها بر پایة الگوریتم یادگیری فازی - کیو و به کمک دو سیاست یادگیری کامل و جزئی با هدف محاصرة آتش در عملیات اطفای حریق.

5.                     پایان الگوریتم

 

5- نتایج شبیه‌سازی کامپیوتری

در این بخش، تحلیل نتایج شبیه‌سازی مونت‌کارلو برای ارزیابی عملکرد استراتژی‌های دوگانة پیشنهادی اطفای حریق مبتنی بر انتخاب مُدهای عملکرد و سپس کنترل حرکت به کمک نرم‌افزار MATLAB ارائه خواهد شد. همان‌طور که پیش‌تر نیز مطرح شد، مدل ارائه‌شده در بستر یک شبکة حسگری شامل ایستگاه‌های پایه، سرخوشه‌ها و حسگرهای توزیع‌شدة ثابت و متحرک مطابق شکل (4) اعمال می‌شود. در اینجا فرض شده است استراتژی اولیه، یعنی انتخاب مُد عملکرد شامل برداشت انرژی یا حرکت به سمت حریق، در دوره‌های زمانی مختلف و براساس مسئلة بهینه‌سازی در رابطة (4) بر عهدة حسگرهای سرخوشه است. هرکدام از حسگرهای منتخب با مُد عملکرد «حرکت»، به‌عنوان یک عامل یادگیری و مستقل در نظر گرفته می‌شوند. به عبارت دیگر، هرکدام از گره‌های شبکه در هنگام حرکت به سمت حریق همانند یک عنصر هوشمند مطابق با شکل (4) عمل می‌کنند و براساس الگوریتم یادگیری FQL به تدریج با اصلاح مسیر حرکت خود، فرایند محاصرة آتش را تکمیل خواهند کرد. حسگرهای متحرک یا روبوت‌های اطفای حریق (نقاط سیاه رنگ) بر پایة الگوریتم یادگیری - فازی و به کمک سیاست‌های تعریف‌شدةPEL  و PAL در شبکة حسگر، قادر به محاصرة حریق (مثلث‌های سیاه رنگ) در عملیات اطفای حریق خواهند بود. در سیاست PEL اولویت بر یادگیری سریع زاویة حرکت حسگر منتخب ( ) نسبت به شعاع حرکتی آن ( ) در هنگام حرکت به سمت آتش است؛ اما در سیاست PAL فرایند یادگیری دو فاکتور مذکور در طول مسیر و به تدریج صورت می‌گیرد. این امکان با تنظیم مقادیر ضریب افت[42] (DC) یا  برای احتمال  برای سیاست‌های PEL و PAL به‌ترتیب به‌صورت  و  تعریف می‌شود. در این مدل محدودیت‌های انرژی در روبوت‌ها با طراحی مکانیزم انتخاب گره و در نظر گرفتن قابلیت برداشت انرژی محیطی قبل از مکانیزم حرکت گره اعمال شده‌اند.

مقادیر پارامترهای مربوط به مدل شبکة حسگر و الگوریتم یادگیری FQL در جدول (2) گردآوری شده‌اند. همان‌طور که اشاره شد، سرعت بالای همگرایی الگوریتم یادگیری FQL و فرایند سبک و غیرپیچیدة آن در مقایسه با سایر سناریوهای متداول دیگر همچون استراتژی مسیر تصادفی[43] و استراتژی انتخاب مسیر مبتنی بر الگوریتم یادگیری کیو[44]، آن را به‌عنوان یکی از بهترین کاندیداها برای طرح یک مدل کاربردی بدل کرده است. به این ترتیب، با توجه به محدودیت‌های شبکة حسگر به‌ویژه طول عمر شبکه، ترکیب فاکتور سرعت در این الگوریتم با فاکتور برداشت انرژی، به طراحی مدلی موفق با نرخ قابل قبول نزدیک‌شدن به آتش منجر شده است (شکل‌های (5) و (6)). در اینجا یک تعریف ساده برای ارزیابی میزان اثرگذاری فاکتور سرعت در مدل پیشنهادی در مقایسه با سناریوهای متداول در یک بازة زمانی و توپولوژی یکسان ارائه شده است. درواقع، نرخ کلی نزدیک‌شدن[45] به آتش به‌صورت  (که در آن،  مقداری ثابت است) فرموله شده است تا هر بهبودی در سرعت محاصرة آتش و درنهایت اطفای حریق برای تمامی حسگرهای متحرک توزیع‌شدة درون شبکه، به‌صورت کمّی نمایش داده شود. در اینجا  به‌عنوان متوسط فاصله بین حسگرهای متحرک و مکان آتش‌سوزی در زمان ، فرض شده است. فاکتور سرعت در استراتژی پیشنهادی حرکت به سمت حریق بر پایة الگوریتم FQL با دو نکته استدلال می‌شود که آن را به شکل یک مدل عملی، قابل پیاده‌سازی و با پیچیدگی پایین نشان داده است. نکتة اول، سرعت همگرایی الگوریتم FQL و درنتیجه تکمیل زودهنگام فرایند یادگیری در مقایسه با رویکرد مبتنی بر الگوریتم QL است. نکتة دوم نیز با نحوة طی مسیر حسگر متحرک مرتبط است. درواقع، ویژگی پیوستگی مقادیر کنش - حالت در الگوریتم FQL سبب شده است مسیر حرکت به سمت آتش مستقل از مکان حسگرهای همسایه باشد و با اتخاذ مقادیر پیوسته و دلخواه برای جهت و گام حرکت، انتخاب مسیر مستقیم پس از یادگیری سریع اولیه برخلاف سایر رویکردهای نامبرده ممکن شود.

 

جدول (2): مقادیر پارامترها در شبیه‌سازی شبکة حسگر

 

 

توان ارسالی ایستگاه پایه

 

 

توان ارسالی حسگر یا روبوت آتشنشان

 

 

تراکم ایستگاه پایه

 

 

تراکم حسگرها در شبکه

 

 

پارامتر فیدینگ رایلی

 

 

حداکثر شعاع پوشش یک حسگر

 

 

حد آستانة برداشت انرژی

 

 

 

 

شکل (4): شبیه‌سازی مدل شبکة حسگر آتشنشان (مثلث‌های سیاه: مکان‌های فرضی دچار حریق) بر پایة استراتژی‌های پیشنهادی انتخاب و حرکت حسگرها (قبل (چپ) و بعد (راست))

 

 

همان‌طور که در شکل (7) نشان داده شده است، مسیر حرکت حسگر یا ربات منتخب (دایرة سبز رنگ) به سمت ناحیة فرضی حریق (ستارة قرمز رنگ) پس از یادگیری سریع اولیه نسبتاً مستقیم بوده است. با این تفاسیر، در مجموع اتلاف زمان هم در فرایند یادگیری و هم در انتخاب مسیر در مقایسه با دو رویکرد دیگر، یعنی تصادفی و مبتنی بر الگوریتم QL، به کمترین میزان خواهد رسید.

در ادامه، ضمن تمرکز بر رفتار یک حسگر به‌عنوان عامل یادگیری توزیع‌شده در شبکة حسگر، نقش اتخاذ سیاست‌های یادگیری PAL و PEL در استراتژی حرکت ارزیابی می‌شود و همچنین شاخصه‌های همگرایی و متوسط پاداش بر پایة الگوریتم پیشنهادی FQL بررسی خواهند شد. همان‌طور که اشاره شد، در سیاست PEL اولویت بر یادگیری سریع زاویة حرکت حسگر منتخب ( ) نسبت به شعاع حرکتی آن ( ) در هنگام حرکت به سمت آتش است؛ اما در سیاست PAL، فرایند یادگیری دو فاکتور مذکور در طول مسیر و به تدریج صورت می‌گیرد؛ بنابراین، میزان اثرگذاری مقادیر ضریب افت  برای احتمال  در سیاست‌های PEL و PAL بر سرعت و دقت استراتژی حرکت مطابق با شکل (8) مشاهده می‌شود. به‌طور کلی، گفتنی است در سیاست PEL با اُفت دیرهنگام میزان احتمال ، یادگیری دقیق‌تر جهت صحیح حرکت با صرف زمان بیشتر برای دورة آموزش[46] در عامل یادگیری و در عوض، انتخاب زودهنگام مسیر مستقیم به سمت آتش ممکن خواهد شد. این مسئله دربارة سیاست دیگر یعنی PAL با افت زودهنگام مقدار احتمال ، به‌صورت وارون ظاهر خواهد شد. به عبارت دیگر، فرایند یادگیری در طول مسیر به تدریج کامل شده و درنتیجه، مسافت طی‌شده با احتمال بیشتری طولانی‌تر است و همگرایی به مسیر مستقیم تأخیر بیشتری دارد. این تعابیر برای نمودارهای لحظه‌ای و تجمعی تغییرات فاصله از حریق به‌ترتیب بر طبق شکل‌های (9) و (10) استدلال می‌شوند.

شکل (5): متوسط نرخ نزدیک‌شدن به آتش ( ) در شبکة حسگر آتشنشان، برای سناریوهای انتخاب مسیر به‌صورت RND، الگوریتم QL و الگوریتم پیشنهادی FQL.

 

همان‌طور که پیش‌تر نیز اشاره شد، در سیاست PEL اولویت بر یادگیری سریع زاویة حرکت حسگر منتخب نسبت به شعاع حرکتی آن در هنگام حرکت به سمت آتش است؛ اما در سیاست PAL فرایند یادگیری دو فاکتور مذکور در طول مسیر و به تدریج صورت می‌گیرد. استدلال مشابه دربارة نمودارهای لحظه‌ای پاداش حسگر متحرک که به‌صورت عبارت  تعریف شده نیز صادق است. شیب صعودی نمودارها (مطابق با شکل (11)) برحسب تکرار در الگوریتم FQL نیز بیان‌کنندة همسوشدن تدریجی جهت حرکت حسگر متحرک در مسیر مستقیم به سمت آتش است که دربارة حالت‌های با سیاست یادگیری PEL این اتفاق در تعداد تکرار کمتری رخ داده است. در حقیقت، نوسانات شیب نمودار در همان تکرارهای آغازین مشاهده می‌شوند و با کامل‌شدن نسبی فرایند یادگیری و شناسایی صحیح جهت حرکت مطابق با سیاست مذکور، شیب مثبت نمودار به‌صورت زودهنگام و با اختلاف چشمگیر در مقایسه با سیاست PAL بر طبق نتایج شبیه‌سازی دیده می‌شود.

 

شکل (6): نمودار میله‌ای اثرگذاری میزان سطح آستانة برداشت انرژی، بر تعداد حسگرهای منتخب برای حرکت بر طبق استراتژی بهینة انتخاب مُد عملکرد

 

 

 

شکل (7): شبیه‌سازی استراتژی کنترل حرکت به سمت آتش به‌صورت تصادفی، مبتنی بر الگوریتم QL

و بر پایة الگوریتم پیشنهادی FQL، در یک حسگر متحرک مطابق با استراتژی بهینة انتخاب مُد عملکرد

 

شکل (8): شبیه‌سازی استراتژی کنترل حرکت به سمت آتش بر پایة الگوریتم پیشنهادی FQL و سیاست‌های یادگیری PAL و PEL

 

 

شکل (9): نمودار لحظه‌ای تغییرات فاصله از حریق در استراتژی کنترل حرکت، به سمت آتش بر پایة الگوریتم پیشنهادی FQL

این مقدار برای مکان‌های مفروض وقوع حریق و ربات منتخب، با اختلاف در حدود 25 تکرار مشاهده می‌شود. گفتنی است در اینجا فرایند پاداش‌دهی در یادگیری تقویتی با حضور حسگر متحرک در مکان حریق متوقف شده است. واضح است نقاط با شیب نزولی در نمودار پاداش لحظه‌ای معادل با مقادیر پاداش‌ منفی در حالت‌های اتخاذ اشتباه جهت حرکت است. این موارد در حالت‌های با سیاست حرکتی PEL فقط در شروع حرکت حسگر رخ داده است و به تدریج جهت حرکت عامل یادگیری تثبیت خواهد شد.

 

شکل (10): نمودار تجمعی تغییرات فاصله از حریق در استراتژی کنترل حرکت به سمت آتش مبتنی بر الگوریتم پیشنهادی FQL

 

شکل (11): نمودار لحظه‌ای تغییرات پاداش در استراتژی کنترل حرکت به سمت آتش براساس الگوریتم پیشنهادی FQL

 

در مقابل، این اتفاق مکرراً در بازة بزرگ‌تری برای حالت‌های با سیاست حرکتی PAL درحال وقوع است که این رفتار نیز پیش‌تر انتظار می‌رفت. هر دو نمودار تغییرات نُرم مربوط به بردار بیشینة مقادیر جدول  در هر کنش (شکل (12)) و نمودار مربع خطای[xlvii] (SE) تغییرات نُرم مربوط به بردار بیشینة مقادیر جدول  در هر کنش (شکل (13)) نشان‌دهندة همگرایی فرایند یادگیری حدوداً در تکرار شمارة 30 برای سیاست PEL و تقریباً در تکرار شمارة 70 به بعد برای بهترین موارد با سیاست حرکتی PAL هستند.

 

شکل (12): نمودار تغییرات نُرم مربوط به بردار بیشینة مقادیر جدول  در هر کنش

 

شکل (13): نمودار همگرایی تغییرات خطای نُرم مربوط به بردار بیشینة مقادیر جدول

 

6- نتیجه‌گیری

درواقع، هدف نهایی از مدل پیشنهادی، ارائة یک طرح کاربردی اقدام سریع و هوشمند برای عملیات اطفای حریق مبتنی بر شبکه‌های حسگر بی‌سیم است. در مدل پیشنهادی، فرایند مشارکتی شناسایی حریق با حسگرهای ثابت و عملیات بهینة اطفای حریق با حسگرهای متحرک بر پایة الگوریتم یادگیری فازی-کیو و به کمک دو سیاست یادگیری کامل و جزئی در شبکة حسگری با توپولوژی پویا مطالعه شد. درنهایت، تحلیل و طراحی مؤثر استراتژی کنترل حرکت بر طبق نتایج بهبودیافتة شبیه‌سازی برای سیستم MAS متشکل از حسگرهای متحرک و براساس الگوریتم پیشنهادی FQL صورت گرفت

 

[1] تاریخ ارسال مقاله: 13/06/1399

تاریخ پذیرش مقاله: 06/04/1400

نام نویسندۀ مسئول: فریدون حسین‌پناهی

نشانی نویسندۀ مسئول: : ایران، سنندج، دانشگاه کردستان، دانشکده مهندسی، گروه مهندسی برق - الکترونیک و مخابرات

 

[1] Wireless Sensor Network

2 Internet of Things

[3] Zigbee Technology

[4] Ultra Wide-band

[5] Multi-Agent Systems

[6] Agent

[7] Low Level Control Systems

[8] Reinforcement Learning

[9] Multi-Agent Reinforcement Learning

[10] Cumulative Reward

[11] Action

[12] State

[13] Reward Function

[14] Value Functions

[15] Network Lifetime Maximization

[16] Two-Tier Heterogonous Network

[17] Base Stations

[18] Cluster Heads

[19] Sinks

[20] Sensor Nodes

[21] Perfect Learning Policy

[22] Partial Learning Policy

[23] Energy Harvesting

[24] Binary Hypothesis Testing

[25] Integer Programming

[26] Relaxed Problem

[27] Q-Learning Algorithm

[28] Continuous Estimation

[29] Competency Parameter

[30] Fuzzy Q-Learning Algorithm

[31] Fuzzy Inference System

[32] Optimal Policy

[33] State-Action

[34] Reward Values

[35] Takagi-Sugeno

[36] Linguistic Fuzzy Term

[37] IF-THEN Rule

[38] Exploration-Exploitation Policy

[39] Truth

[40] Standard Gaussian Membership

[41] Triangular Membership Functions

[42] Decay Coefficient

[43] Random Trajectory Strategy

[44] QL-based Trajectory Strategy

[45] Total Approaching Rate

[46] Training Period

[xlvii] Square Error

[1] M. Yang and C. Zhang, “Smoke Alarm System,” Wireless, Vol. 9, pp. 50-51, 2006.
[2] T. M. Behera, S. K. Mohapatra, U. C. Samal, M. S. Khan, M. Daneshmand and A. H. Gandomi, "I-SEP: An Improved Routing Protocol for Heterogeneous WSN for IoT-Based Environmental Monitoring," in IEEE Internet of Things Journal, Vol. 7, No. 1, pp. 710-717, Jan. 2020.
[3] R. Morello, S. C. Mukhopadhyay, Z. Liu, D. Slomovitz and S. R. Samantaray, "Advances on Sensing Technologies for Smart Cities and Power Grids: A Review," in IEEE Sensors Journal, Vol. 17, No. 23, pp. 7596-7610, 1 Dec.1, 2017.
[4] S. Anand and Keetha Manjari.R.K, "FPGA implementation of artificial Neural Network for forest fire detection in wireless Sensor Network," 2017 2nd Int. Conf. on Computing and Comm. Tech. (ICCCT), Chennai, 2017, pp. 265-270.
[5] T. Islam, H. A. Rahman and M. A. Syrus, "Fire detection system with indoor localization using ZigBee based wireless sensor network," 2015 Int. Conf. on Informatics, Electronics & Vision (ICIEV), Fukuoka, 2015, pp. 1-6.
[6] Farzad H. Panahi, Parvin Farhadi & Zhila H. Panahi (2016) Spectral-Efficient Green Wireless Communications via Cognitive UWB Signal Model, Automatika,57:3,793-809.
[7] Giglioa, L., Descloitresa, J., Justicec, C.O., Kaufman, Y.J., 2003. An enhanced contextual fire detection algorithm for MODIS. Remote Sensing of Environment 87, 273–282.
[8] V. Sherstjuk, M. Zharikova and I. Sokol, "Forest Fire Monitoring System Based on UAV Team, Remote Sensing, and Image Processing," 2018 IEEE Second Int. Conf. on Data Stream Mining & Processing (DSMP), Lviv, 2018, pp. 590-594.
[9] S. R. Vijayalakshmi and S. Muruganand, "A survey of Internet of Things in fire detection and fire industries," 2017 International Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud) (I-SMAC), Palladam, 2017, pp. 703-707.
[10] F. A. Hossain, Y. Zhang and C. Yuan, "A Survey on Forest Fire Monitoring Using Unmanned Aerial Vehicles," 2019 3rd International Symposium on Autonomous Systems (ISAS), Shanghai, China, 2019, pp. 484-489.
[11] Stone, P.; Veloso, M. Multiagent systems: A survey from machine learning perspective. Auton. Robots 2000, 8,345–383.
[12] N. K. Ure, S. Omidshafiei, B. T. Lopez, A. [13] Agha-Mohammadi, J. P. How and J. Vian, "Online heterogeneous multiagent learning under limited communication with applications to forest fire management," 2015 IEEE/RSJ Int. Conf. on Intelligent Robots and Sys. (IROS), Hamburg, 2015, pp. 5181-5188.
[14] Rashid, A.T.; Ali, A.A.; Frasca, M.; Fortuna, L. Path planning with obstacle avoidance based on visibility binary tree algorithm. Robot. Auton. Syst. 2013, 61, 1440–1449.
[15] Arel, I.; Liu, C.; Urbanik, T.; Kohls, A.G. Reinforcement learning-based multi-agent system for network traffic signal control. IET Intell. Transp. Syst. 2010, 4, 128–135.
[16] Cherkassky, V.; Mulier, F. Learning from data: Concepts, Theory and Methods; Wiley-IEEE Press: Hoboken, USA, 2007.
[17] Zhang, W.; Ma, L.; Li, X. Multi-agent reinforcement learning based on local communication. Clust. Comput. 2018, 1–10.
[18] Hu, X.; Wang, Y. Consensus of Linear Multi-Agent Sys. Subject to Actuator Saturation. Int. J. Con. Aut. Syst. 2013, 11, 649–656.
[19] Luviano, D.; Yu, W. Path planning in unknown environment with kernel smoothing and reinforcement learning for multi-agent systems. In Proceedings of the 12th Int. Conf. on Electrical Engineering, Computing Science and Automatic Control (CCE), Mexico City, Mexico, 28–30 October 2015.
[20] Abul, O.; Polat, F.; Alhajj, R. Multi-agent reinforcement learning using function approximation. IEEE Trans. Syst. Man Cybern. Part C Appl. Rev. 2000, 485–497.
[21] Fernandez, F.; Parker, L.E. Learning in large cooperative multi-robots systems. Int. J. Robot. Autom. Spec. Issue Comput. Intell. Tech. Coop. Robots 2001, 16, 217–226.
[22] Foerster, J.; Nardelli, N.; Farquhar, G.; Afouras, T.; Torr, P.H.; Kohli, P.; Whiteson, S. Stabilising experience replay for deep multi-agent reinforcement learning. arXiv 2017.
[23] Tam., H.; Ishi, S. Multi agent reinforcement learning applied to a chase problem in a continuous world. Life Robot. 2001, 202–206.
[24] Ishiwaka, Y.; Sato, T.; Kakazu, Y. An approach to pursuit problem on a heterogeneous multiagent system using reinforcement learning. Robot. Auton. Syst. 2003, 43, 245–256.
[25] Radac, M.-B.; Precup, R.-E.; Roman, R.-C. Data-driven model reference control of MIMO vertical tank systems with model-free VRFT and Q-Learning. ISA Trans. 2017.
[26] Pandian, B.J.; Noel, M.M. Control of a bioreactor using a new partially supervised reinforcement learning algorithm. J. Process Control 2018, 69, 16–29.
[27] F. H. Panahi, F. H. Panahi, G. Hattab, T. Ohtsuki and D. Cabric, "Green Heterogeneous Networks via an Intelligent Sleep/Wake-Up Mechanism and D2D Communications," in IEEE Trans. on Green Comm. and Networking, Vol. 2, No. 4, pp. 915-931, Dec. 2018.
[28] F. H. Panahi and T. Ohtsuki, “Optimal channel-sensing scheme for cognitive radio systems based on fuzzy q-learning,” IEICE Trans. Commun., Vol. 97, No. 2, pp. 283–294, 2014.
[29] Waleed Ejaz, Muhammad Naeem, Adnan Shahid, Alagan Anpalagan and Minho Jo, "Efficient energy management for the internet of things in smart cities", IEEE Communications Magazine, Vol. 55, No. 1, pp. 84-91, 2017.
[30] Zhu, Ch., V. CM L., Lei Shu, and E. C-H. Ngai. "Green internet of things for smart world." IEEE Access, Vol. 3, pp. 2151- 2162, 2015.
[31] M. M. Amiri and S. M. H. Andargoli, "Life time maximization in the Wireless Sensor Network with energy harvesting," 2017 IEEE 4th Int. Conf. on Knowledge-Based Engineering and Innovation (KBEI), Tehran, 2017, pp. 0412-0417.