Reliability and Battery Lifetime Improvement for IoT Networks: Challenges and AI-powered solutions

Document Type : Research Article

Authors

1 Stockholm University, Stockholm, Sweden

2 Department of Computer Engineering, Allameh Dehkhoda University, Isfahan, Iran

3 Department of Software Engineering, Mashhad Branch, IAU, Mashhad, Iran

Abstract

Towards realizing an intelligent networked society, enabling low-cost low-energy connectivity for things, also known as the Internet of Things (IoT), is of crucial importance. While the existing wireless access networks require centralized signaling for managing network resources, this approach is of less interest for future generations of wireless networks due to the energy consumption in such signaling and the expected increase in the number of IoT devices. Then, in this work, we investigate leveraging machine learning for distributed control of IoT communications. Towards this end, first, we investigate low-complex learning schemes that are applicable to resource-constrained IoT communications. Then, we propose a lightweight learning scheme which enables the IoT devices to adapt their communication parameters to the environment. Further, we investigate analytical expressions presenting the performance of a centralized control scheme for adapting communication parameters of IoT devices and compare the results with the results from the proposed distributed learning approach. The simulation results confirm that the reliability and energy efficiency of IoT communications could be significantly improved by leveraging the proposed learning approach.

Keywords


1- مقدمه[1]

در طول پیدایش شبکه‌های مخابراتی، بخش چشمگیری از تحقیقات در این حوزه، تمرکز خود را روی مقاوم‌‌سازی سیستم‌های ارتباطی در مقابل نویز و تداخل قرار داده‌اند که این مسئله عمدتاً ناشی از محدودیت‌های کانال فیزیکی مانند نویز و تداخل است. به لطف پهنای باند بالا و استفاده از سخت‌افزار‌ها و نرم‌افزارهای پیشرفته در نسل چهارم شبکة تلفن همراه (هم در ایستگاه‌های پایه و هم در دستگاههای ارتباطی کاربران)، این شبکه‌ قادر به ارائه ارتباطات با سرعت بالا به‌صورت یکپارچه و مطمئن به کاربران است [1]. در مقایسه با شبکه‌های نسل چهارم، شبکه‌‌های تلفن همراه نسل پنجم، طیف وسیع‌تری از ابزارهای ارتباطی را هدف قرار داده است؛ برای مثال، در نسل پنجم، ایجاد ارتباط برای دستگاههای هوشمند با محدودیت در زمینه انرژی، هزینه و پیچیدگی محاسباتی، یکی از اهداف اصلی است ]2[.

براساس یک چشم‌انداز بلندمدت، انتظار می‌رود شبکه‌های نسل پنجم و پس از آن، امکان اتصال در مقیاس گسترده، با هزینة کم و قابلیت اطمینان بالا را برای تمام دستگاههای با قابلیت اتصال به شبکه فراهم کنند. تا به امروز، طراحی و بهینه‌سازی شبکه‌های ارتباطی و به دنبال آن، دستیابی به درک درست از محدودیت‌های فیزیکی مانند نویز و تداخل، مبتنی بر مدل‌های آماری بوده‌اند. همچنین، دستگاههای ارتباطی کاربران که غالباً تلفن همراه هوشمندند، به‌طور معمول هر روز شارژ می‌شوند و برای برقراری ارتباطات نیاز دارند به‌طور مستمر به کانال ارتباطی با ایستگاه پایه مربوطه گوش دهند؛ درحالی‌که ایستگاه‌های پایه وظیفة مدیریت ارتباطات، ارسال دستورالعمل‌‌‌های ارتباطی و زمانبندی منابع رادیویی را بر عهده دارند. با در نظر گرفتن پیچیدگی،گستردگی مقیاس و ناهمگونی شبکه‌های بی‌سیم نسل آینده، به‌خصوص با در نظر گرفتن ترافیک اینترنت اشیاء، امکان کنترل متمرکز میلیون‌ها ارتباط، در سمت شبکه بیش از پیش مشکل است ]3[. در ادبیات این حوزه برای حل این مشکل دو نوع راه‌حل کلی ارائه شده است؛ دستة اول، راه‌حل‌های تکاملی است که تلاش می‌کنند شبکه‌های سلولی را به نحوی توسعه دهند که ترافیک مربوط به دستگاههای اینترنت اشیاء در بستر شبکه‌های سلولی موجود مانند LTE سرویس‌دهی شود ]4,5[. دستة دوم شامل راه‌حل‌هایی است که بر بازبینی اساسی ارتباطات اشیاء با سرورها، کاهش اساسی حجم سیگنالینگ بین دستگاههای ارتباطی کاربر و شبکه و کاهش کنترل شبکه بر منابع مخابراتی متمرکز شده‌اند ]6[. دستة سوم که دسترسی آزاد به منابع رادیویی نیز نامیده می‌شود، در سال‌های اخیر با استقبال زیاد گروه‌های تحقیقاتی، استانداردهای مخابراتی و حتی صنعت مواجه شده است؛ برای مثال، به پروتکل‌های ارتباطی مانند سیگفاکس (SigFox) و لورا (LoRa) می‌توان اشاره کرد.

فناوری‌های لورا و سیگفاکس دو پروتکل غالب در زمینة اینترنت اشیاء، روی باندهای فرکانسی بدون مجوزند. از این دو فناوری می‌توان به‌عنوان دو کاندید اصلی پیاده‌سازی نسل پنجم در مناطق روستایی و حومة شهرها نیز یاد کرد. این فناوری‌ها با بهره‌گیری از روش استفادة آزاد از منابع رادیویی (grant-free access) که نیازمند جفت‌سازی، هماهنگ‌سازی و رزرو منابع رادیویی نیست، حجم سیگنالینگ لازم بین دستگاه (به‌طور مثال، دستگاه اینترنت اشیاء) و سرورها را بسیار کاهش داده‌اند. این کاهش سیگنالینگ، به افزایش طول عمر باتری دستگاه متصل در یک شبکة لورا یا سیگفاکس منجر می‌شود ]7[. در زمان حاضر، دسترسی آزاد به منابع رادیویی، موضوع بحث در استانداردهای مخابراتی بوده است و انتظار می‌رود در نسخه‌های آینده استاندارد 3GPP LTE نیز پیاده‌سازی شود ]8[.

درحالی‌که میزان مصرف انرژی در حالت دسترسی آزاد بسیار کمتر از حالت با رزرو قبلی است، قابلیت اطمینان ارتباطات در دسترسی آزاد به‌علت تداخل احتمالی بسته‌های ارسال، مشکلی اساسی است ]9و10و11[. اندازه‌گیری تداخل در فرکانس 868 مگاهرتز (باند فرکانسی ISM) در ]9[ ارائه شده است. این نتایج نشان می‌دهند باند فرکانسی ISM، با توجه به رشد روزافزون فناوری‌های ارتباطی که به‌صورت هم‌زمان در باند فرکانسی آزاد ISM فعالیت می‌کنند، در برخی زیرباندها و زمان‌ها تداخل زیادی دارد که به معنای احتمال بالای تصادم بسته‌ها در این زیرباندها است.

در سال‌های اخیر علاقة فراوانی به استفاده از ابزارهای یادگیری ماشین برای توصیف رفتار شبکه‌های مقیاس بزرگ به وجود آمده است ]12[. در ]13[، یک راه‌حل مبتنی بر یادگیری تقویتی[2]، در سمت شبکه، برای شبکه‌های LTE ارائه شده است که به ترافیک اینترنت اشیاء سرویس می‌دهند. در ]14[، روش خوشه‌بندی خودسازمان‌یافته و دسترسی به منابع مخابراتی براساس خوشه‌بندی، برای شبکه‌های اینترنت اشیاء بررسی شده است. در ]15[، استفاده از الگوریتم یادگیری MAB[3] برای شبکه‌های اینترنت اشیاء پیشنهاد شده‌ است که در آن، دستگاهها یاد‌ می‌گیرند از زیرکانال‌های با سطح بالایی از تداخل استاتیک استفاده نکنند. در [16]، برای کنترل زمانبندی و انتقال اطلاعات[4] دستگاههای اینترنت اشیاء در سیستم‌های با پردازش لبه[5] از یادگیری تقویتی عمیق استفاده شده است. راه‌حل پیشنهادی در این مقاله قادر است به‌صورت هم‌زمان مسئلة زمانبندی و انتقال اطلاعات را حل کند تا بدین ترتیب میزان مصرف انرژی و میانگین تأخیر را به‌صورت چشمگیری کاهش دهد. در [17]، جنبه‌های مختلف استفاده از یادگیری تقویتی عمیق برای اینترنت اشیای خودمختار[6]، شامل مدل‌ها، کاربردها و چالش‌ها بررسی شده‌اند. در [18] تخصیص کانال به‌صورت توزیع‌شده و تصادفی بین کابران شبکة لورا بررسی شده است. در [19و20]، تخصیص کانال در شبکه‌های اینترنت اشیاء با استفاده از یادگیری ماشینی بررسی شده، اما به مصرف انرژی در انتخاب پارامترهای مخابراتی توجهی نشده است.

 به‌منظور تحقق شبکه‌های اینترنت اشیای خود‌‌سازمان‌یافته که قادر به انطباق با محیط پیرامون خود هستند، در این پژوهش سناریوهایی بررسی شده‌اند که در آن اینترنت اشیای روی باند با دسترسی آزاد و با حضور شبکه‌های تداخلی دیگر پیاده‌سازی می‌شود. در این نوع ارتباطات، انتخاب پارامترهایی مانند نرخ داده، زیرکانال استفاده‌شده، توان ارسالی و تعداد تکرار ارسال، مشخص‌کنندۀ ظرفیت شبکه و طول عمرباتری اشیاء‌اند. هدف اصلی از این پژوهش افزایش سطح اطمینان ارتباطات در دستگاههای اینترنت اشیای ارزان قیمت در محیط‌های تداخلی و کاهش میزان مصرف انرژی در این دستگاهها است. در این راستا، یک راه‌حل مبتنی بر یادگیری ‌ماشینی توزیع‌شده، برای کنترل پارامترهای مخابراتی پیشنهاد شده است و نتایج به‌دست‌آمده با نتایج تحلیلی مربوط به مسئلة بهینه‌سازی متمرکز مقایسه شده‌اند.

نتایج ارزیابی نشان‌دهندة کاهش چشمگیر در مصرف انرژی و افزایش احتمال موفقیت در ارسال داده است. نتایج اولیۀ این پژوهش در [21] ارائه شده که شامل استفاده از یادگیری ماشین برای تنظیم پارامترهای مخابراتی تکنولوژی لورا در هنگام پیاده‌سازی است. در این نسخه، ما [21] را توسعه دادیم و نتایج جدیدی در استفاده از یادگیری ماشینی برای سازگاری شبکه با تداخل مقطعی، یادگیریِ کمک‌شده توسط شبکه و تکنیک انتقال یادگیری ارائه می‌کنیم. نوآوری‌های اصلی این مقاله شامل موارد زیر است:

 

  • مدل‌سازی تنظیم پارامتر‌های مخابراتی اینترنت اشیاء به‌عنوان مسئلۀ بهینه‌سازی؛
  • بررسی الگوریتم‌های یادگیری ماشینی کاربردی در بهبود عملکرد شبکه‌های اینترنت اشیاء؛
  • ارائة راه‌حل مبتنی بر یادگیری ماشینی با هدف افزایش بهره‌وری انرژی اشیاء و قابلیت اطمینان ارتباطات در شبکه‌های اینترنت اشیاء؛
  • توسعة یک مدل تحلیلی برای ارزیابی عملکرد رویکردهای یادگیری توزیع‌شده با بهره‌گیری از ابزارهای آماری هندسة تصادفی؛
  • ارزیابی قابلیت اطمینان، بهره‌وری انرژی و مصالحۀ بین آنها در راه‌حل‌های پیشنهادی و سایر راه‌حل‌های موجود در ادبیات حوزه.

ادامة این مقاله به این ترتیب سازماندهی شده است: در بخش 2 سیستم مدنظر در مقاله تشریح می‌شود. بخش 3 مربوط به بررسی مبتنی بر یادگیری ماشینی کاربردی در اینترنت اشیاء است. در بخش 4، یک الگوریتم مبتنی بر یادگیری ماشینی توزیع‌شده ارائه شده و عملکرد آن با روش بهینه‌سازی متمرکز مقایسه شده است. نتایج مربوط به شبیه‌سازی، در بخش 5 و نتیجه‌گیری در بخش 6 ارائه شده است.

شکل 1: مدل سیستم، اینترنت اشیاء با دسترسی آزاد

 

 

2- مدل سیستم و فرموله‌سازی مسئله

سیستم مدنظر در این کار، حالت کلی از ارتباطات اینترنت اشیاء بدون نیاز به دسترسی به کانال، مانند سیگفاکس و لورا را مدل می‌کند. مجموعه‌ای از دستگاههای اینترنت اشیاء (مجموعه φ) را در یک محدودة جغرافیایی A در نظر بگیرید. انتقال داده از اشیاء به سرور ازطریق نقاط دسترسی انجام می‌گیرد که در این محدوده قرار داده شده‌اند (شکل 1). هرگاه یکی از اشیای پاکتی برای ارسال دارد، بدون نیاز به رزرو منبع و زمانبندی، اقدام به ارسال پاکت می‌کند. هر نقطۀ دسترسی این دستگاههای مختلف در شبکة اینترنت اشیاء، الگوهای متفاوتی در استفاده از منابع رادیویی دارند؛ به‌طور دقیق‌تر، مدت زمان بین دو ارسال داده، پهنای باند سیگنال استفاده‌شده، توان ارسالی، نرخ ارسال داده و زمان انتقال بسته‌ها از دستگاهی به دستگاه دیگر متفاوت است. در این مقاله، پهنای باند فرکانسی به اشتراک گذاشته برای ارتباطات را با W و چگالی طیفی توان نویز را با N نمایش می‌دهیم.

 فرض کنید از مجموعۀ ، زیرمجموعة  مدنظر ما برای جمع‌آوری اطلاعات‌اند و ترافیک سایر اشیاء تداخل محسوب می‌شوند. مسئلة بررسی‌شده در این مقاله، کنترل پارامترهای مخابراتی برای مجموعه‌ای از دستگاههای اینترنت اشیاء، ، براساس مشاهده‌ و تعامل با محیط اطراف است. فرض کنید در زمان ، امین دستگاه از مجموعة  نیاز به ارسال داده داشته‌ باشد، در این حالت مسئله مدنظر به‌صورت زیر فرموله می­شود:

(1)

 

 

که در آن  بیان‌کنندة تابع هدف است و تعادلی بین مصرف انرژی (EC) و قابلیت اطمینان (REL) ارتباطات ایجاد می‌کند. با توجه به تفاوت کیفیت سرویس (QoS) در کاربردهای مختلف اینترنت اشیاء، تعریف تابع  در هر کاربرد می‌تواند متفاوت از کاربردهای دیگر باشد. در این پژوهش، مجموع مقادیر وزن‌دار و استانداردشده‌‌ به بازۀ (0,1) قابلیت اطمینان و مصرف انرژی، تابع هدف در نظر گرفته شده‌اند؛ یعنی

(2)

 

 

که در آن 0≤β≤1 پارامتر تنظیم‌کنندۀ تعادل بین سطح اطمینان و مصرف انرژی است. همچنین، ، ،  و  به‌ترتیب اشاره به توان ارسالی، نرخ دادة ارسالی، زیرکانال انتخاب‌شده برای ارسال و تعداد تکرارهای ارسال به‌ازای هر بسته دارد و نماد  نیز نشان‌دهندة مجموعه مقادیر ممکن برای  است.

یک راه‌حل ابتدایی برای مسئلۀ (1)، حل آن با کمک ابزارهای بهینه‌سازی و به‌صورت متمرکز در سرور برای همۀ اعضای   است. این راه‌حل باوجود پیچیدگی بالا، به اطلاع‌داشتن از پارامترهای مخابراتی سایر اشیاء نیاز دارد؛ درنتیجه، در یک رویکرد توزیع‌شده، کاربردی نیست. بنابراین، به‌جای استفاده از راه‌حل متمرکز، در این پژوهش از رویکرد یادگیری توزیع‌شده استفاده می‌شود. در بخش زیر، ابتدا یادگیری ماشینی و کاربرد آن در اینترنت اشیاء بررسی می‌شود. سپس در بخش چهارم، حل مسئلۀ (1) با کمک یادگیری ماشینی توزیع‌شده بررسی می‌شود.

 

3- یادگیری ماشینی در اینترنت اشیاء

3-1- معرفی و دسته‌بندی

یادگیری ماشینی که در آن، یک واحد هوشمند، اطلاعات موجود را پردازش کرده است و برای خوشه‌بندی، پیش‌بینی یا تصمیم‌گیری به کار می‌رود، در حالت کلی به سه دستۀ یادگیری با داده‌های نشاندار، با داده‌های بی‌نشان و یادگیری تقویتی[7] تقسیم می‌شود. در سال‌های اخیر به لطف توسعة قدرت ذخیره و پردازش داده، یادگیری ماشینی در قسمت‌های مختلف شبکه و حتی در سرویس‌های اینترنت اشیاء جای خود را باز کرده است [22]؛ برای مثال، در [23] روش‌های ارائه‌شده برای امنیت بیشتر ارتباطات اینترنت اشیاء بررسی شده‌اند. یک روش پیشنهادی، یادگیری مشخصه‌های فیزیکی هر شیء، مانند تابع توزیع احتمال آفست فرکانسی آن، ازطریق بررسی عمیق ارتباطات گذشته و ارزیابی هویت هر پاکت بعدی دریافتی با این مشخصه‌ها است.

 بزرگ‌ترین مشکل در استفاده از یادگیری با داده‌های نشاندار و با داده‌های بی‌نشان، نیاز به حجم دادۀ نسبتاً بالا برای پردازش و همگراشدن راه‌حل است که کاربرد آن را در راه‌حل‌های توزیع‌شده در سمت اشیاء، ناممکن می‌کند و به‌طور معمول، مدنظر در سمت شبکه و سرورها است. همچنین، یادگیری تقویتی که در آن هر شیء ازطریق ارتباط با محیط و تجربه، به‌تدریج پاداش درازمدت هر عمل را درک می‌کند، به‌طور گسترده در سمت ابزارهای هوشمند شایان توجه قرار گرفته است [22]. از مهم‌ترین مدل‌های یادگیری در این حوزه می‌توان به یادگیری چندانتخابی[8](MAB) و یادگیری Q، معروف به Q-learning اشاره کرد [22]. در هردو روش، کاربر تصمیم‌گیرنده برای هر عمل یک نمایه در نظر می‌گیرد و با توجه به تجربۀ حاصل از انتخاب آن، برای اولویت دادن یا ندادن به آن عمل تصمیم می‌گیرد. تفاوت این دو الگوریتم، به تفاوت نگاه آنها به محیط برمی‌گردد که در اولی، محیط با یک حالت (state) مدل می‌شود؛ درحالی‌که در دومی، محیط پیرامون با تعدادی حالت مدل می‌شود و ارزش هر عمل در هر حالت جداگانه بررسی می‌شود.

 در این پژوهش که اینترنت اشیاء با نیاز مبرم به بهینه‌گی انرژی بررسی می‌شود، روی مدل یادگیری MAB تمرکز می‌شود تا سربار انرژی و پیچیدگی پردازش داده و تصمیم‌گیری در اشیاء به حداقل برسد.

 

3-2- خودسازماندهی با MAB

در این بخش، راه‌حلی مبتنی بر مدل MAB برای خودسازماندهی اشیای متصل به اینترنت ارائه شده است. در روش یادگیری توزیع‌شدة MAB، هر دستگاه برای بیشینه‌سازی مقدار تابع هدف خود، ، تلاش می‌کند. این کار با استفاده از بهترین انتخاب ( ) از مجموعه تصمیمات ( ) انجام می‌گیرد:‌ . برای انتخاب بهترین تصمیم، پاداش[9] (نتیجه) اقدامات قبلی‌ باید به نحوی ذخیره و پردازش شوند؛ برای مثال، بعد از انتخاب یک تصمیم در زمان ، یعنی ، دستگاه می‌تواند گزارش دریافت از سوی نقطۀ دسترسی یا سرور را یک پاداش در نظر بگیرد. این گزارش دریافت با    نمایش داده می‌شود و در آن، 0 و 1 به‌ترتیب بیان‌کنندة پیام تصدیق دریافت و عدم‌تصدیق[10] هستند. هدف عامل بیشینه‌کردن میزان مجموع پاداش در طول زمان‌ و کمینه‌سازی میزان ضررهای[11] متحمل‌شده در تصمیم‌گیری‌هایش است. رویکرد مبتنی بر MAB باعث ایجاد تعادل بین فرایند اکتشاف و استخراج[12] می‌شود. «اکتشاف» به بازه‌های تصمیم‌گیری اشاره دارد که در آن عامل تلاش می‌کند مجموعه گزینه‌های گوناگون را تست کند؛ حتی در صورتی که پاداش‌های قبلی این اقدامات کمتر از دیگر مجموعه اقدامات باشد. «استخراج» بیان‌کنندة زمان‌های تصمیم‌گیری است که عامل براساس مشاهدات قبلی، به‌صورت حریصانه‌ای برای افزایش پاداش تلاش می‌کند. با توجه به کاربردهای گستردة الگوریتم یادگیری MAB در زمینه‌های مختلفی مانند رباتیک، این الگوریتم به خوبی در ادبیات این پژوهش بررسی شده و راه‌حل‌های کارآمدی به‌منظور کمینه‌سازی میزان ضرر در تصمیم‌گیری‌ها پیشنهاد شده است. در ادامة مقاله تلاش شده است رویکردهایی برای حل مسئلة کنترل پارامترهای مخابراتی در دستگاههای اینترنت اشیاء در دو محیط متفاوت ارائه شوند: 1) محیط با تداخل روی کانال داده و عدم تداخل روی کانال پسخورد و 2) محیط‌‌ با تداخل روی کانال داده و پسخورد.

 

3-3- محیط با تداخل روی کانال داده

در محیط با تداخل روی کانال داده، مسئلۀ یادگیری، MAB تصادفی[13] نامیده می‌شود. برای MAB تصادفی که در آن، پاداش هر عمل از یک تابع چگالی احتمال به دست می‌آید، خانوادۀ الگوریتم [14]UCB، کمینۀ ضرر ممکن را به دست می‌آورد [22]. به عبارت دیگر، این الگوریتم به انتخاب تصمیم با بالاترین کران اطمینان در برآورده‌کردن پاداش بیشینه همگرا می‌شود. در میان الگوریتم‌های خانوادۀ UCB، ما بر ، ارائه‌شده در [24] تمرکز می‌کنیم که در آن ضرر ناشی از تصمیم‌گیری با نرخ O( ) رشد می‌کند [25].

 

3-4- محیط با تداخل روی کانال داده و پسخورد

در محیط با تداخل روی کانال داده و پسخورد با شرایطی مواجه هستیم که هم یک پاکت ممکن است به مقصد نرسد و هم ACK مربوط به یک پاکت رسیده به مقصد نیز ممکن است در اثر تداخل به گیرنده نرسد. در این شرایط مسئلۀ یادگیری به نام MAB غیرتصادفی شناخته می‌شود که در آن، پاداش‌ هر تصمیم لزوماً از یک تابع چگالی احتمالِ خاص مشتق نمی‌شود (چون پیام حاوی پاداش نیز ممکن است در اثر تداخل از بین برود). نمونه‌هایی از MAB غیرتصادفی، محیط با تداخل خصمانه است که در آن یک عنصر متخاصم می‌تواند با تداخل روی کانال پسخورد، کارایی ارتباطات را دچار مشکل کند. علاوه بر این، در کاربردهای اینترنت اشیاء در باند ISM، تداخل از سوی شبکه‌های دیگر می‌تواند در کانال پسخورد تداخل ایجاد کند.

 الگوریتم‌های متعدد برای یادگیری MAB با تداخل غیرتصادفی در ادبیات این حوزه حضور دارند که در میان آنها عملکرد الگوریتم EXP3 بهینه است [26]. الگوریتم EXP3 در هر زمان تصمیم‌گیری ، یک تصمیم از مجموعه  را براساس توزیع‌های احتمال پاداش آنها انتخاب می‌کند؛ یعنی به بیان آماری: . میزان ضرر از تصمیم‌گیری براساس الگوریتم EXP3 با مرتبة زمانی  رشد می‌کند که این میزان، کمینۀ رشد بین سایر الگوریتم‌ها است [23].

 

4- الگوریتم‌های پیشنهادی

به یاد بیاوریم هدف مسئلة بهینه‌سازی (1)، بیشینه‌کردن سطح اطمینان و بهره‌وری انرژی دستگاهها است. در این بخش و با هدف ارائه یک راه‌حل توزیع‌شده برای این مسئله، دو الگوریتم یادگیری مبتنی بر MAB ارائه شده که در آنها دو معیار میزان موفقیت و مصرف انرژی در فرایند یادگیری در محیط با تداخل روی کانال داده و پسخورد لحاظ شده است. این دو الگوریتم در الگوریتم 1 و 2 ارائه شده‌اند. در الگوریتم 1، در پایان هر انتقال موفقیت‌آمیز داده، فرستنده پیام تصدیق (ACK) دریافت می‌کند و مادامی که این تصدیق دریافت می‌شود، مقدار پاداش تجمعی برای تصمیم مربوطه یک واحد افزایش می‌یابد [22]. در نشانه‌گذاری استفاده‌شده،  بیان‌کنندة مقدار انرژی مصرف‌شده برای ارسال بسته با استفاده از اقدام k، Emin حداقل انرژی مصرف‌شده در میان اقداماتی که با موفقیت یک بسته را ارسال کرده‌اند،  تعداد دفعاتی که تا زمان t تصمیم  انتخاب شده است،  تصمیم گرفته‌شده در زمان تصمیم‌گیری ، و

(3)

 

 

نشان‌دهندۀ پاداش تغییریافتۀ تصمیم انتخابی در زمان  است که تابعی از دریافت شدن یا نشدن ACK، یعنی  است و در ادامه بررسی می‌شود. همچنین،  پاداش تجمعی تصمیم k تا زمان ،  پارامتر ایجاد تعادل بین سطح اطمینان و بهره‌وری انرژی و در نهایت،  ارزش انتخاب تصمیم  در زمان  است. همچنین، با استفاده از رویکرد مشابهی، در الگوریتم 2 به‌جای ذخیره و به‌روزرسانی ارزش یک تصمیم در پارامتر ، احتمال رسیدن به بیشترین پاداش ازطریق تصمیم ، یعنی  ذخیره و به‌روزرسانی می‌شود. در این الگوریتم‌ها، α و  پارامترهای طراحی‌اند که میان فازهای اکتشاف و استخراج در الگوریتم 1 و 2 (به‌ترتیب) تعادل ایجاد می‌کنند. با مقایسۀ الگوریتم 1 و 2 با مسئلۀ (1) مشاهده می‌شود F(Reli,EEi) در این الگوریتم‌ها با استفاده از تابع پاداش تغییریافته، یعنی  در (3)، مدل‌سازی شده است. در رابطة (3)،  نشان‌دهندۀ پاداش خارجی (از طرف گیرنده با توجه به دریافت کردن یا نکردن پاکت) و  نشان‌دهندۀ پاداش داخلی با توجه به میزان مصرف انرژی است.

 

4-1- انتقال یادگیری

راه‌حل ارائه‌شده در الگوریتم 1 و 2 یک راه‌حل توزیع‌شده است که براساس آن، هر دستگاه پارامترهای مخابراتی خود را با محیط تطبیق می‌دهد. در این قسمت، تکنیک انتقال یادگیری (transfer learning) برای افزایش سرعت همگرایی و درنتیجه، بهبود عملکرد سیستم بررسی می‌شود. الگوریتم 1 در هنگام آماده‌سازی، ارزش هر تصمیم را برابر صفر و الگوریتم 2 نیز احتمال گرفتن بیشترین پاداش از انتخاب هر تصمیم را برابر با سایر تصمیم‌ها در نظر می‌گیرد. حال اگر یک دستگاه جدید که شروع به فعالیت می‌کند از دستگاههای اطراف، نقطه‌دسترسی یا از سابقۀ ارتباطات قبلی، ارزش تصمیم‌ها را از یک مقدار اولیه آغاز کند، به این فرایند، انتقال یادگیری می‌گویند. انتقال یادگیری، چه از سمت دستگاههای قوی‌تر همسایه و چه از سمت شبکه، سرعت همگرایی الگوریتم یادگیری را به میزان زیادی افزایش می‌دهد که این افزایش با افزایش تعداد تصمیم‌ها چشمگیر خواهد بود.

در بخش بعدی، رویکرد یادگیری پیشنهادشده برای کنترل اقدامات در دستگاههای اینترنت اشیاء بررسی شده است که با فناوری لورا به یکدیگر متصل شده‌اند و نتایج به‌دست‌آمده با رویکرد بهینه متمرکز مقایسه شده است.

 

5- مطالعۀ موردی: کاربرد در شبکۀ لورا

لورا، لایة فیزیکی پروتکل لوراون[15]، تلاش می‌کند ارتباطات بی‌سیم در فواصل طولانی، با نرخ داده و مصرف انرژی پایین را میسر کند. ارتباطات در لورا در سه زیرکانال با پهنای باند هرکدام 125 کیلوهرتز و در باند فرکانسی ISM صورت می‌‌گیرد. مقاومت بالا در برابر نویز و تداخل از ملزومات اساسی برای کار در باند فرکانسی ISM است؛ براساس این، روش مدولاسیون CSS[16] در فناوری لورا استفاده شده است. مدولاسیون CCC امکان دریافت و تشخیص سیگنال‌هایی با فاکتورهای پخش(SF) متفاوت، به‌صورت هم‌زمان را ممکن می‌کند. فاکتور پخش در لورا بین 7 تا 12 تنظیم می‌شود که این اعداد به تعداد chirp‌های استفاده‌شده برای کدکردن یک بیت اشاره دارند؛ ازاین‌رو، نرخ داده برای کد c با استفاده از فرمول زیر محاسبه می‌شود:

   

 

که در آن μ نرخ کد بین صفر و یک است. براساس ]27و28[، سیگنال به نویز موردنیاز برای تشخیص درست سیگنال‌هایی با فاکتور پخش {7,…,12}، به‌ترتیب برابر با
 
است. علاوه بر این، با افزایش c، میزان نرخ داده کاهش می‌یابد و تداخل نسبت به نویز از کاهش نرخ ارسال داده حاصل می‌شود. شایان توجه است در لوراون برای ارتباطات از توان‌های انتقال 2، 5، 8، 11 و 14 (dBm) پشتیبانی می‌شود ]27و28[.

 

5-1- کنترل پارامترهای مخابراتی در لورا

یک شبکۀ لورا متشکل از یک نقطۀ دسترسی و تعدادی دستگاه متصل را فرض کنید که در آن دستگاهها براساس فرایند نقطه‌ای پوآسن[17] (PPP) و با تراکم λ در یک محدوده پراکنده شده‌اند. هر فرستندۀ لورا به‌طور میانگین در هر  ثانیه یک پاکت به گیرنده ارسال می‌کند. با در نظر گرفتن رابطة (1)، برای تنظیم پارامترهای ارتباطی هر فرستنده، مسئلۀ زیر باید حل شود:

   

 

 

5-1-1- رویکرد توزیع‌شده

با به‌کارگیری الگوریتم‌های (1)، ارائه‌شده در بخش 4، مسئلة بهینه‌سازی ارائه‌شده در رابطة (5) حل می‌شود؛ براساس این، مجموعه  شامل 90 جفت تصمیم خواهد بود که هر جفت شامل یک توان ارسال، یک زیرکانال و یک کد است. نتایج استفاده از رویکرد توزیع‌شده در شکل 2 نشان داده شده‌اند که در ادامه تحلیل خواهند شد.

5-1-2- رویکرد متمرکز

این قسمت مربوط به تخصیص بهینۀ کدهای ارسال  بین فرستنده‌ها است و تعداد سطح‌های توان ارسالی، تعداد بازارسال و تعداد زیرکانال برابر 1 در نظر گرفته می‌شود. علاوه بر این، تخصیص کدهای ارسال شش‌گانه تنها نسبت به تداخل از سوی فرستنده‌های لورا بهینه می‌شوند و سایر منابع تداخل در باند ISM در نظر گرفته نمی‌شوند. با در نظر گرفتن این امر که با افزایش کد ارسال از 6 به 12، نرخ ارسال داده کاهش می‌یابد و احتمال تصادم و مقاومت در برابر نویز افزایش می‌یابد، انتظار می‌رود فرستنده‌های نزدیک به ایستگاه پایه مقادیر فاکتور پخش کوچک‌تری نسبت به فرستنده‌های دورتر انتخاب کنند و برعکس ]11[. براساس این، می‌توان ادعا کرد مسئلة تخصیص کد ارسال معادل مسئلۀ پیداکردن چگالی بهینة فرستنده‌های با یک کد ارسال مشابه در هر نقطه از شبکه است. به‌منظور حل این مسئله در یک فضای دوبعدی، ناحیة سرویس‌دهی را مجموعه‌ای از 6 حلقه‌ تقسیم می‌کنیم که هر حلقه دارای شعاع داخلی  و شعاع خارجی  است و اختصاص به یک کد ارسال دارد. با در نظر گرفتن نتایج به‌دست‌آمده در ]29[ و توسعة آنها، می‌توان تابع لاپلاس تداخل مربوط به دستگاههای توزیع‌شده در مین حلقه که با  نشان داده شده را به این صورت به دست آورد:

(6)

 

 

که در آن  به‌ترتیب اشاره به توان ارسالی، زمان بین دو ارسال پاکت، طول بسته (بیت)، کد انتخابی برای ارسال و زمان انتقال دارند و  نشان‌دهندة افت مسیر است. اکنون می‌توان تابع لاپلاس تداخل دریافتی از همه دستگاههایی که از فاکتور پخش  استفاده می‌کنند را به‌صورت  نوشت. اگر نویز سیستم را با  و تداخل دریافتی از سوی فرستنده‌های گروه  را با  نشان دهیم، احتمال موفقیت در ارسال بسته برای یک فرستنده که از کد c استفاده می‌کند و در فاصلة  از ایستگاه پایه قرار گرفته است، به‌صورت زیر به دست می‌آید:

(7)

 

 

که  برابر سطح آستانة نویز تحمل‌شدنی برای کد c و  برابر سطح آستانة تداخل تحمل‌شدنی است. همچنین، برای  داریم:

   

 

حال، مسئلة (3) به‌صورت زیر بازنویسی می‌شود:

(9)

 

 

با حل این مسئلة بهینه‌سازی، چگالی استفاده از هر کد در محیط به‌صورت تابعی از فاصله تا گیرنده به دست می‌آید. مشاهده‌ می‌شود حل مسئلة بهینه‌سازی به‌صورت متمرکز بسیار پیچیده است؛ حتی زمانی که برای ساده‌سازی آن فرض می‌شود دستگاهها در یک فضای دوبعدی و با فرایند نقطه‌ای پوآسن توزیع شده‌اند و تنها یک کانال لورا با یک سطح توان ارسال و بدون نویز خارجی وجود دارد. در ادامه، کارآیی راه‌حل بهینة متمرکز با رویکرد یادگیری توزیع‌شده مقایسه می‌شود.

 

5-1-3- مقایسۀ رویکرد متمرکز و توزیع‌شده

شکل (2) احتمال موفقیت در ارسال داده با رویکرد توزیع‌شدة حاصل از الگوریتم 1 و نتایج مربوط به استراتژی بهینة متمرکز را برای شرایط زیر نشان می‌دهد:
مقادیر مربوط به دیگر پارامترها در جدول 1 آورده شده‌اند. در شکل (2)، محور x نشان‌دهندة نمایۀ پاکت‌های ارسال‌شده است. همان‌طور که در بالا نیز اشاره شد، هر فرستنده به‌طور مستقل تصمیم‌ می‌گیرد پاکت‌هایش را با استفاده از فاکتور پخش 7 یا 10 ارسال کند. بعد از تعداد کمی ارسال، مشهود است نتایج به‌دست‌آمده با استفاده از یادگیری توزیع‌شده بسیار نزدیک به رویکرد متمرکز شده است و ضرر ناشی از تصمیم‌گیری (regret) به صفر نزدیک می‌شود. باید توجه کرد یادگیری توزیع‌شده با وجود داشتن تفاوت کمی با رویکرد بهینۀ متمرکز در احتمال موفقیت، در عمل باعث بهبود چشمگیر در افزایش طول عمر باتری خواهد شد. به این علت که با این روش، فرستنده بدون نیاز به گوش‌دادن به سیگنال‌های کنترلی قادر است پارامترهای ارتباطی دستگاهها را به‌صورت توزیع‌شده تنظیم کند.

 

شکل 2: مقایسة الگوریتم 1 و رویکرد بهینة متمرکز در تخصیص کد به فرستنده‌های لورا

 

6- ارزیابی عملکرد

در این بخش نتایج شبیه‌سازی عملکرد الگوریتم مبتنی بر یادگیری ماشینی در فناوری لورا ارائه شده‌اند. در این شبیه‌سازی، 500 فرستنده در یک محیط دایروی با شعاع 2 کیلومتر و به‌طور تصادفی پراکنده شده‌اند. هدف، توزیع دو سطح متفاوت توان ارسالی 8 و 14 (dBm) و انتخاب یک زیرکانال از 6 زیرکانال در میان این فرستنده‌‌ها است. پارامترهای شبیه‌سازی در جدول 1 آورده شده‌اند. در نتایج مربوط به شبیه‌سازی، الگوریتم 1 و 2 به الگوریتم‌های ارائه‌شده در بخش 4 و الگوریتم 3 به الگوریتم متمرکز ارائه‌شده در [11] اشاره دارد که در آن، بار به‌طور مساوی بین زیرکانال‌ها توزیع می‌شود. الگوریتم 4 نشان‌دهندة الـگوریتم استـفاده‌شـده در [18] است که در آن، زیرکـانال به‌صورت تصادفی انتخاب می‌شود. در پایان، نمایۀ C در جلوی نام یک الگوریتم نشان می‌دهد که فقط کد ارسالی با آن الگوریتم انتخاب می‌شود و توان ارسالی برابر 14 dBm است؛ درحالی‌که نمایۀ (C,P) نشان می‌دهد توان و کد ارسالی هردو با الگوریتم انتخاب می‌شوند. در پایان، الگوریتم 5 نشان‌دهندة روش یادگیری به‌کاررفته در [19و20] است که برخلاف روش پیشنهادی ما، در تابع پاداش آن صرفه‌جویی در مصرف انرژی در نظر گرفته نشده است. شکل 3، احتمال موفقیت در ارسال داده را برای 2 الگوریتم ارائه‌شده در این کار (الگوریتم 1 و 2) و دو الگوریتم پایه برای سنجش (الگوریتم 3 و 4) نشان می‌دهد. محور x نشان‌دهندۀ نمایۀ پاکت‌های ارسالی (درواقع نشان‌دهندة سیر زمان) است. در بازۀ میانی از زمان، یک تداخل شدید در 2 زیرکانال از مجموع 6 شش زیرکانال اتفاق می‌افتد.

 

جدول (1): پارامترهای ارزیابی عملکرد ]16[

پارامتر

مقدار

ناحیة سرویس

دایره‌ای با شعاع 2 کیلومتر

نرخ تجمعی ورود بسته

5/2 بر ثانیه

طول بسته

20 بایت

تعداد زیرکانال‌ها

1 زیرکانال

پهنای باند:

125 کیلوهرتز

نرخ کد: μ

8/0

آستانة سیگنال به نویز

 

آستانة سیگنال به تداخل

6 dB

توان مصرفی: Pt, Pc, η

{8,14}dBm, 10dBm, 2

پارامترهای یادگیری (پیش‌فرض)

4/0، 4/0، 1/0

 

جدول (2): مقایسة کلی روش‌های بررسی‌شده در مقاله

نام روش

سال

انتخاب پارمتر

محل انتخاب

تابع هدف

مرجع [11]

2019

تقسیم مساوی

مرکزی

احتمال موفقیت

مرجع [18]

2019

تصادفی

توزیع‌شده

احتمال موفقیت

مرجع [19]

2019

یادگیری

توزیع‌شده

احتمال موفقیت

مرجع [20]

2020

یادگیری

توزیع‌شده

احتمال موفقیت

پیشنهادی

2020

یادگیری

توزیع‌شده

احتمال موفقیت و مصرف انرژی

 

در شکل 3، مدت زمان پاسخ به تداخل، طول تداخل و زمان پاسخ به رفع تداخل مشخص شده‌اند. مشاهده می‌شود الگوریتم مبتنی بر یادگیری ماشینی قادر است با سرعت خوب خود را با شرایط محیط تطبیق دهد و احتمال موفقیت را در ارسال داده، با وجود و بدون وجود تداخل، به مقدار بیشینه نزدیک کند. همچنین، مشاهده می‌شود الگوریتم 2، در این شرایط که روی کانال پسخورد تداخل نداریم، با سرعت پایین همگرا می‌شود؛ چون به نتایج ACK دریافتی به اندازة الگوریتم 1 اعتماد ندارد. همیـن نبودن اعتماد اســت کــه در شرایط جمینگ و تداخل روی کانال پسخورد، به این الگوریتم کمک می‌کند عملکرد بهینه‌تری نسبت به الگوریتم 1 داشته باشد [21].

 

 

شکل 3: احتمال موفقیت در ارسال پاکت برحسب زمان برای الگوریتم‌های پیشنهادی و پایه

 

 

شکل 4: احتمال موفقیت در ارسال پاکت برحسب زمان برای الگوریتم پیشنهادی با مقادیر مختلف

 

 

شکل 5: نمایۀ زیرکانال انتخاب‌شده

 

شکل 6: نحوۀ پاسخ الگوریتم 1 به یک تداخل

 

 

شکل 7: احتمال موفقیت در ارسال پاکت برحسب زمان برای الگوریتم پیشنهادی با مقادیر مختلف

 

 

شکل 8: مصرف انرژی در ارسال یک پاکت برحسب زمان برای الگوریتم پیشنهادی با مقادیر مختلف

 

شکل 4 نشان‌دهندۀ عملکرد الگوریتم 1 برای مقادیر مختلف پارامتر ، پارامتر ایجاد تعادل بین تجربۀ تصمیم‌های دیگر و استفاده از تجربۀ گذشته است. مشاهده می‌شود انتخاب یک مقدار بهینه‌ برای این پارامتر که در اینجا 05/0 است، به سیستم کمک می‌کند تا در مقابل تداخل‌های احتمال، واکنش به موقع نشان دهد و نیز در هنگام رفع تداخل به سرعت به حالت بهینۀ سابق برگردد.

شکل 5 نشان‌دهندۀ نمایۀ تصمیم انتخاب‌شده با الگوریتم 1، 3 و 4 برحسب زمان برای یک دستگاه خاص است. مشاهده می‌شود دستگاه با استفاده از الگوریتم 1 پس از تجربۀ موفق‌نبودن روی زیرکانال 1 و 2 دیگر به ندرت به آنها مراجعه می‌کند.

شکل 6 نشان‌دهندۀ نحوۀ توزیع زیرکانال‌ها بین کاربران با استفاده از الگوریتم 1 در قبل، حین و بلافاصله بعد از رفع تداخل است. مشاهده‌ می‌شود کاربران قبل از وقوع تداخل روی کانال‌های مختلف به خوبی پخش شده‌اند. پس از وقوع تداخل در دو زیرکانال، استفاده از این دو زیرکانال به‌تدریج کم می‌شود. بلافاصله پس از رفع تداخل نیز مشاهده می‌شود کابران دوباره به استفاده از این زیرکانال‌ها متمایل می‌شوند. دقت شود حتی در میانۀ تداخل شدید روی این دو زیرکانال، الگوریتم یادگیری ماشینی آنها را گاهی با ارسال داده بررسی می‌کند که این تکرر بررسی با پارامتر  تنظیم می‌شود.

شکل 7 و 8 نشان‌دهندۀ میزان موفقیت و مصرف انرژی با کمک الگوریتم 1 و 5 در حالتی است که علاوه بر زیرکانال ارسال داده، توان ارسالی نیز با یادگیری ماشینی تنظیم شود. بر طبق رابطۀ (3)،  تعادل بین بهره‌وری انرژی و احتمال موفقیت را در تابع هدف برقرار می‌کرد. شکل 7 نشان می‌دهد با افزایش تعداد تصمیم‌ها (در نظر گرفتن توان ارسالی نیز به‌عنوان یک تصمیم)، زمان لازم برای همگرایی نیز در مقایسه با الگوریتم 5 افزایش می‌یابد که تصمیم‌های کمتری دربردارد. این تأخیر در همگرایی، در پاسخ الگوریتم‌ها به تداخل ایجادشده نیز درخور توجه است که نمودار سبز نسبت به سیاه عملکرد پایین‌تری دارد. شکل 8 مصرف انرژی را برای الگوریتم 1 و هریک از مقادیر  در مقایسه با الگوریتم 5 را نشان می‌دهد. مشاهده می‌شود استفاده از الگوریتم یادگیری برای انتخاب سطح توان ارسالی همواره به کاهش انرژی مصرفی منجر می‌شود و این کاهش انرژی با افزایش ، پارامتر ایجاد تعادل در تابع هدف (3)، افزایش می‌یابد. مقایسۀ تطبیقی شکل 7 و 8 نشان می‌دهد کاهش مصرف انرژی ممکن است با کاهش احتمال موفقیت همراه باشد؛ درنتیجه، باید در انتخاب مقدار مناسب برای پارامتر  با توجه به نوع کاربرد اینترنت اشیای مدنظر و کیفیت سرویس درخواستی، دقت لازم به کار برده شود.

 

7- نتیجه‌گیری

در این پژوهش، راهکارهای ممکن برای بهبود قابلیت اطمینان و طول عمر باتری اینترنت اشیاء بررسی شده است. کاهش سیگنالینگ بین فرستنده‌های اینترنت اشیاء و شبکۀ دسترسی در شبکه‌های ارتباطی مبتنی بر دسترسی آزاد به منابع رادیویی، مانند لورا، به کاهش مصرف انرژی در ارسال داده‌ها و افزایش احتمال تصادم داده‌ها در انتقال منجر می‌شود. در این پژوهش، الگوریتم‌های یادگیری ماشینی با قابلیت پیاده‌سازی در اینترنت اشیاء بررسی شده و یک راه‌حل مبتنی بر یادگیری توزیع‌شده با پیچیدگی کم برای پیاده‌سازی در فرستنده‌های اینترنت اشیاء پیشنهاد شده است.

در این راه‌حل، از پاداش داخلی و خارجی به‌ترتیب برای کمینه‌سازی مصرف انرژی و احتمال تصادم در زمان انتقال داده روی کانال‌های اشتراکی استفاده شده است. سپس عملکرد این روش توزیع‌شده با روش مبتنی بر راه‌حل بهینة متمرکز توسعه داده شده با استفاده از هندسة تحلیلی، مقایسه شده و همگرایی الگوریتم توزیع‌شده تأیید شده است. نتایج حاصل از شبیه‌سازی شبکة ارتباطی لورا با کمک الگوریتم توزیع‌شده نشان‌دهندة بهبود چشمگیر در احتمال موفقیت در ارسال داده و افزایش طول عمر باتری دستگاهها است. این نتایج نشان می‌دهند در صورت استفاده از این روش یادگیری در دستگاههای اینترنت اشیاء، این دستگاهها قادر به سازگاری خود با محیط پیرامون و تداخل احتمالی خواهند بود که نتیجة آن، افزایش قابلیت اطمینان در ارتباطات به‌صورت خودکار است.



[1] تاریخ ارسال مقاله: 06/06/1398

تاریخ پذیرش مقاله: 14/05/1399

نام نویسنده مسئول: امین آذری

نشانی نویسنده مسئول: سوئد، استکهلم، دانشگاه استکهلم

[2] Reinforcement Learning

[3] Multi-Arm Bandit

[4] Offloading

[5] Edge processing

[6] Autonomous IoT (AIoT)

[7] Supervised/unsupervised, reinforcement learning

[8] Multi-arm bandit

[9] Rewards

[10] ACK and NACK

[11] Regret

[12] Exploration and exploitation

[13] Stochastic MAB

[14] Upper Confidence Bound

[15] LoRa Wide Area Network (LoRaWAN)

[16] Chirp Spread Spectrum

[17] Poisson point process (PPP)

[1]   Cox, Christopher. “An introduction to LTE: LTE, LTE-advanced, SAE and 4G mobile communications,” John Wiley & Sons, 2012.
[2]   C. Mavromoustakis, G. Mastorakis, and J. M. Batalla, Internet of Things
(IoT) in 5G mobile technologies. Springer, 2016.
[3]   M. Kulin, C. Fortuna, E. De Poorter, D. Deschrijver, and I. Moerman, “Data-driven design of intelligent wireless networks: An overview and tutorial,” Sensors, vol. 16, no. 6, p. 790, June 2016.
[4]   A. Azari and G. Miao, “Network lifetime maximization for cellularbased M2M networks,” IEEE Access, vol. 5, pp. 18 927–18 940, 2017.
[5]   Nokia Networks, “LTE-M – optimizing LTE for the Internet of things,” Tech. Rep., 2015.
[6]   W. Yang, M. Wang, J. Zhang, J. Zou, M. Hua, T. Xia, and X. You, “Narrowband wireless access for low-power massive internet of things: A bandwidth perspective,” IEEE Wireless Commun., vol. 24, no. 3, pp. 138–145, 2017.
[7]   E. Morin, M. Maman, R. Guizzetti, and A. Duda, “Comparison of the ´device lifetime in wireless networks for the internet of things,” IEEE Access, vol. 5, pp. 7097–7114, 2017.
[8]   R1-163510 , “Candidate NR Multiple Access Schemes ,” Tech. Rep., April 2016, 3GPP TSG RAN WG1 Meeting 84, Busan, Korea.
[9]   M. Lauridsen et al., “Interference measurements in the european 868 MHz ISM band with focus on LoRa and SigFox,” in IEEE WCNC, 2017, pp. 1–6.
[10]  M. Masoudi, A. Azari, E. A. Yavuz, and C. Cavdar, “Grant-free Radio Access IoT Networks: Scalability Analysis in Coexistence Scenarios,” in IEEE ICC, 2018.
[11]  F. Cuomo et al., “EXPLoRa: EXtending the Performance of LoRa by suitable spreading factor allocations,” in IEEE 13th International Conference on Wireless and Mobile Computing, Networking and Communications (WiMob), 2017, pp. 1–5.
[12]  C. Jiang, H. Zhang, Y. Ren, Z. Han, K. C. Chen, and L. Hanzo, “Machine learning paradigms for next-generation wireless networks,” IEEE Wireless Communications, vol. 24, no. 2, pp. 98–105, April 2017.
[13]  Y. J. Liu, S. M. Cheng, and Y. L. Hsueh, “eNB selection for machine type communications using reinforcement learning based markov decision process,” IEEE Transactions on Vehicular Technology, vol. 66, no. 12, pp. 11 330–11 338, Dec. 2017.
[14]  A. Azari, “Energy-efficient scheduling and grouping for machine-type communications over cellular networks,” Ad Hoc Networks, vol. 43, pp. 16 – 29, 2016.
[15]  R. Bonnefoi, L. Besson, C. Moy, E. Kaufmann, and J. Palicot, “Multiarmed bandit learning in IoT networks: Learning helps even in nonstationary settings,” in CROWNCOM, 2017.
[16]  Lei, Lei, et al. "Multiuser Resource Control With Deep Reinforcement Learning in IoT Edge Computing." IEEE Internet of Things Journal 6.6 (2019): 10119-10133.
[17]  Lei, Lei, et al. "Deep reinforcement learning for autonomous internet of things: Model, applications and challenges." arXiv preprint arXiv:1907.09059 (2019).
[18]  Priyanta, Irfan Fachrudin, et al. "Evaluation of LoRa Technology for Vehicle and Asset Tracking in Smart Harbors." IECON 2019-45th Annual Conference of the IEEE Industrial Electronics Society. Vol. 1. IEEE, 2019.
[19]  Ta, Duc-Tuyen, et al. "LoRa-MAB: A Flexible Simulator for Decentralized Learning Resource Allocation in IoT Networks." 2019 12th IFIP Wireless and Mobile Networking Conference (WMNC). IEEE, 2019.
[20]  Hasegawa, So, et al. "Performance Evaluation of Machine Learning Based Channel Selection Algorithm Implemented on IoT Sensor Devices and Its Application to Wireless Sensor Network for Building Monitoring System." 2020 International Conference on Artificial Intelligence in Information and Communication (ICAIIC). IEEE, 2020.
[21]  Wang, Wenbo, et al. "Decentralized Learning for Channel Allocation in IoT Networks over Unlicensed Bandwidth as a Contextual Multi-player Multi-armed Bandit Game." arXiv preprint arXiv:2003.13314 (2020).
[22]  Azari, Amin, and Cicek Cavdar. “Self-organized Low-power IoT Networks: A distributed learning approach,” 2018 IEEE Global Communications Conference (GLOBECOM), 2018.
[23]  M. S. Talebi Mazraeh Shahi, “Minimizing regret in combinatorial bandits and reinforcement learning,” Ph.D. dissertation, KTH Royal Institute of Technology, 2017.
[24]  Xiao, Liang, et al. “IoT security techniques based on machine learning,” arXiv preprint arXiv:1801.06275, 2018.
[25]  P. Auer, N. Cesa-Bianchi, and P. Fischer, “Finite-time analysis of the multiarmed bandit problem,” Machine learning, vol. 47, no. 2-3, pp. 235–256, 2002.
[26]  S. Bubeck et al., “The best of both worlds: stochastic and adversarial bandits,” in Conference on Learning Theory, 2012, pp. 1–23.
[27]  R. Kl´ıma et al., “Combining online learning and equilibrium computation in security games,” in International Conference on Decision and Game Theory for Security. Springer, 2015, pp. 130–149.
[28]  B. Reynders, W. Meert, and S. Pollin, “Power and spreading factor control in low power wide area networks,” in IEEE ICC, 2017.
[29]  O. Georgiou and U. Raza, “Low power wide area network analysis: Can LoRa scale?” IEEE Wireless Communications Letters, vol. 6, no. 2, pp.162–165, 2017.
[30]  A. Azari and C. Cavdar, "Performance Evaluation and Optimization of LPWA IoT Networks: A Stochastic Geometry Approach," 2018 IEEE GLOBECOM, 2018.