Document Type : Research Article
Authors
1 Stockholm University, Stockholm, Sweden
2 Department of Computer Engineering, Allameh Dehkhoda University, Isfahan, Iran
3 Department of Software Engineering, Mashhad Branch, IAU, Mashhad, Iran
Abstract
Keywords
در طول پیدایش شبکههای مخابراتی، بخش چشمگیری از تحقیقات در این حوزه، تمرکز خود را روی مقاومسازی سیستمهای ارتباطی در مقابل نویز و تداخل قرار دادهاند که این مسئله عمدتاً ناشی از محدودیتهای کانال فیزیکی مانند نویز و تداخل است. به لطف پهنای باند بالا و استفاده از سختافزارها و نرمافزارهای پیشرفته در نسل چهارم شبکة تلفن همراه (هم در ایستگاههای پایه و هم در دستگاههای ارتباطی کاربران)، این شبکه قادر به ارائه ارتباطات با سرعت بالا بهصورت یکپارچه و مطمئن به کاربران است [1]. در مقایسه با شبکههای نسل چهارم، شبکههای تلفن همراه نسل پنجم، طیف وسیعتری از ابزارهای ارتباطی را هدف قرار داده است؛ برای مثال، در نسل پنجم، ایجاد ارتباط برای دستگاههای هوشمند با محدودیت در زمینه انرژی، هزینه و پیچیدگی محاسباتی، یکی از اهداف اصلی است ]2[.
براساس یک چشمانداز بلندمدت، انتظار میرود شبکههای نسل پنجم و پس از آن، امکان اتصال در مقیاس گسترده، با هزینة کم و قابلیت اطمینان بالا را برای تمام دستگاههای با قابلیت اتصال به شبکه فراهم کنند. تا به امروز، طراحی و بهینهسازی شبکههای ارتباطی و به دنبال آن، دستیابی به درک درست از محدودیتهای فیزیکی مانند نویز و تداخل، مبتنی بر مدلهای آماری بودهاند. همچنین، دستگاههای ارتباطی کاربران که غالباً تلفن همراه هوشمندند، بهطور معمول هر روز شارژ میشوند و برای برقراری ارتباطات نیاز دارند بهطور مستمر به کانال ارتباطی با ایستگاه پایه مربوطه گوش دهند؛ درحالیکه ایستگاههای پایه وظیفة مدیریت ارتباطات، ارسال دستورالعملهای ارتباطی و زمانبندی منابع رادیویی را بر عهده دارند. با در نظر گرفتن پیچیدگی،گستردگی مقیاس و ناهمگونی شبکههای بیسیم نسل آینده، بهخصوص با در نظر گرفتن ترافیک اینترنت اشیاء، امکان کنترل متمرکز میلیونها ارتباط، در سمت شبکه بیش از پیش مشکل است ]3[. در ادبیات این حوزه برای حل این مشکل دو نوع راهحل کلی ارائه شده است؛ دستة اول، راهحلهای تکاملی است که تلاش میکنند شبکههای سلولی را به نحوی توسعه دهند که ترافیک مربوط به دستگاههای اینترنت اشیاء در بستر شبکههای سلولی موجود مانند LTE سرویسدهی شود ]4,5[. دستة دوم شامل راهحلهایی است که بر بازبینی اساسی ارتباطات اشیاء با سرورها، کاهش اساسی حجم سیگنالینگ بین دستگاههای ارتباطی کاربر و شبکه و کاهش کنترل شبکه بر منابع مخابراتی متمرکز شدهاند ]6[. دستة سوم که دسترسی آزاد به منابع رادیویی نیز نامیده میشود، در سالهای اخیر با استقبال زیاد گروههای تحقیقاتی، استانداردهای مخابراتی و حتی صنعت مواجه شده است؛ برای مثال، به پروتکلهای ارتباطی مانند سیگفاکس (SigFox) و لورا (LoRa) میتوان اشاره کرد.
فناوریهای لورا و سیگفاکس دو پروتکل غالب در زمینة اینترنت اشیاء، روی باندهای فرکانسی بدون مجوزند. از این دو فناوری میتوان بهعنوان دو کاندید اصلی پیادهسازی نسل پنجم در مناطق روستایی و حومة شهرها نیز یاد کرد. این فناوریها با بهرهگیری از روش استفادة آزاد از منابع رادیویی (grant-free access) که نیازمند جفتسازی، هماهنگسازی و رزرو منابع رادیویی نیست، حجم سیگنالینگ لازم بین دستگاه (بهطور مثال، دستگاه اینترنت اشیاء) و سرورها را بسیار کاهش دادهاند. این کاهش سیگنالینگ، به افزایش طول عمر باتری دستگاه متصل در یک شبکة لورا یا سیگفاکس منجر میشود ]7[. در زمان حاضر، دسترسی آزاد به منابع رادیویی، موضوع بحث در استانداردهای مخابراتی بوده است و انتظار میرود در نسخههای آینده استاندارد 3GPP LTE نیز پیادهسازی شود ]8[.
درحالیکه میزان مصرف انرژی در حالت دسترسی آزاد بسیار کمتر از حالت با رزرو قبلی است، قابلیت اطمینان ارتباطات در دسترسی آزاد بهعلت تداخل احتمالی بستههای ارسال، مشکلی اساسی است ]9و10و11[. اندازهگیری تداخل در فرکانس 868 مگاهرتز (باند فرکانسی ISM) در ]9[ ارائه شده است. این نتایج نشان میدهند باند فرکانسی ISM، با توجه به رشد روزافزون فناوریهای ارتباطی که بهصورت همزمان در باند فرکانسی آزاد ISM فعالیت میکنند، در برخی زیرباندها و زمانها تداخل زیادی دارد که به معنای احتمال بالای تصادم بستهها در این زیرباندها است.
در سالهای اخیر علاقة فراوانی به استفاده از ابزارهای یادگیری ماشین برای توصیف رفتار شبکههای مقیاس بزرگ به وجود آمده است ]12[. در ]13[، یک راهحل مبتنی بر یادگیری تقویتی[2]، در سمت شبکه، برای شبکههای LTE ارائه شده است که به ترافیک اینترنت اشیاء سرویس میدهند. در ]14[، روش خوشهبندی خودسازمانیافته و دسترسی به منابع مخابراتی براساس خوشهبندی، برای شبکههای اینترنت اشیاء بررسی شده است. در ]15[، استفاده از الگوریتم یادگیری MAB[3] برای شبکههای اینترنت اشیاء پیشنهاد شده است که در آن، دستگاهها یاد میگیرند از زیرکانالهای با سطح بالایی از تداخل استاتیک استفاده نکنند. در [16]، برای کنترل زمانبندی و انتقال اطلاعات[4] دستگاههای اینترنت اشیاء در سیستمهای با پردازش لبه[5] از یادگیری تقویتی عمیق استفاده شده است. راهحل پیشنهادی در این مقاله قادر است بهصورت همزمان مسئلة زمانبندی و انتقال اطلاعات را حل کند تا بدین ترتیب میزان مصرف انرژی و میانگین تأخیر را بهصورت چشمگیری کاهش دهد. در [17]، جنبههای مختلف استفاده از یادگیری تقویتی عمیق برای اینترنت اشیای خودمختار[6]، شامل مدلها، کاربردها و چالشها بررسی شدهاند. در [18] تخصیص کانال بهصورت توزیعشده و تصادفی بین کابران شبکة لورا بررسی شده است. در [19و20]، تخصیص کانال در شبکههای اینترنت اشیاء با استفاده از یادگیری ماشینی بررسی شده، اما به مصرف انرژی در انتخاب پارامترهای مخابراتی توجهی نشده است.
بهمنظور تحقق شبکههای اینترنت اشیای خودسازمانیافته که قادر به انطباق با محیط پیرامون خود هستند، در این پژوهش سناریوهایی بررسی شدهاند که در آن اینترنت اشیای روی باند با دسترسی آزاد و با حضور شبکههای تداخلی دیگر پیادهسازی میشود. در این نوع ارتباطات، انتخاب پارامترهایی مانند نرخ داده، زیرکانال استفادهشده، توان ارسالی و تعداد تکرار ارسال، مشخصکنندۀ ظرفیت شبکه و طول عمرباتری اشیاءاند. هدف اصلی از این پژوهش افزایش سطح اطمینان ارتباطات در دستگاههای اینترنت اشیای ارزان قیمت در محیطهای تداخلی و کاهش میزان مصرف انرژی در این دستگاهها است. در این راستا، یک راهحل مبتنی بر یادگیری ماشینی توزیعشده، برای کنترل پارامترهای مخابراتی پیشنهاد شده است و نتایج بهدستآمده با نتایج تحلیلی مربوط به مسئلة بهینهسازی متمرکز مقایسه شدهاند.
نتایج ارزیابی نشاندهندة کاهش چشمگیر در مصرف انرژی و افزایش احتمال موفقیت در ارسال داده است. نتایج اولیۀ این پژوهش در [21] ارائه شده که شامل استفاده از یادگیری ماشین برای تنظیم پارامترهای مخابراتی تکنولوژی لورا در هنگام پیادهسازی است. در این نسخه، ما [21] را توسعه دادیم و نتایج جدیدی در استفاده از یادگیری ماشینی برای سازگاری شبکه با تداخل مقطعی، یادگیریِ کمکشده توسط شبکه و تکنیک انتقال یادگیری ارائه میکنیم. نوآوریهای اصلی این مقاله شامل موارد زیر است:
ادامة این مقاله به این ترتیب سازماندهی شده است: در بخش 2 سیستم مدنظر در مقاله تشریح میشود. بخش 3 مربوط به بررسی مبتنی بر یادگیری ماشینی کاربردی در اینترنت اشیاء است. در بخش 4، یک الگوریتم مبتنی بر یادگیری ماشینی توزیعشده ارائه شده و عملکرد آن با روش بهینهسازی متمرکز مقایسه شده است. نتایج مربوط به شبیهسازی، در بخش 5 و نتیجهگیری در بخش 6 ارائه شده است.
شکل 1: مدل سیستم، اینترنت اشیاء با دسترسی آزاد
|
سیستم مدنظر در این کار، حالت کلی از ارتباطات اینترنت اشیاء بدون نیاز به دسترسی به کانال، مانند سیگفاکس و لورا را مدل میکند. مجموعهای از دستگاههای اینترنت اشیاء (مجموعه φ) را در یک محدودة جغرافیایی A در نظر بگیرید. انتقال داده از اشیاء به سرور ازطریق نقاط دسترسی انجام میگیرد که در این محدوده قرار داده شدهاند (شکل 1). هرگاه یکی از اشیای پاکتی برای ارسال دارد، بدون نیاز به رزرو منبع و زمانبندی، اقدام به ارسال پاکت میکند. هر نقطۀ دسترسی این دستگاههای مختلف در شبکة اینترنت اشیاء، الگوهای متفاوتی در استفاده از منابع رادیویی دارند؛ بهطور دقیقتر، مدت زمان بین دو ارسال داده، پهنای باند سیگنال استفادهشده، توان ارسالی، نرخ ارسال داده و زمان انتقال بستهها از دستگاهی به دستگاه دیگر متفاوت است. در این مقاله، پهنای باند فرکانسی به اشتراک گذاشته برای ارتباطات را با W و چگالی طیفی توان نویز را با N نمایش میدهیم.
فرض کنید از مجموعۀ ، زیرمجموعة مدنظر ما برای جمعآوری اطلاعاتاند و ترافیک سایر اشیاء تداخل محسوب میشوند. مسئلة بررسیشده در این مقاله، کنترل پارامترهای مخابراتی برای مجموعهای از دستگاههای اینترنت اشیاء، ، براساس مشاهده و تعامل با محیط اطراف است. فرض کنید در زمان ، امین دستگاه از مجموعة نیاز به ارسال داده داشته باشد، در این حالت مسئله مدنظر بهصورت زیر فرموله میشود:
(1) |
که در آن بیانکنندة تابع هدف است و تعادلی بین مصرف انرژی (EC) و قابلیت اطمینان (REL) ارتباطات ایجاد میکند. با توجه به تفاوت کیفیت سرویس (QoS) در کاربردهای مختلف اینترنت اشیاء، تعریف تابع در هر کاربرد میتواند متفاوت از کاربردهای دیگر باشد. در این پژوهش، مجموع مقادیر وزندار و استانداردشده به بازۀ (0,1) قابلیت اطمینان و مصرف انرژی، تابع هدف در نظر گرفته شدهاند؛ یعنی
(2) |
که در آن 0≤β≤1 پارامتر تنظیمکنندۀ تعادل بین سطح اطمینان و مصرف انرژی است. همچنین، ، ، و بهترتیب اشاره به توان ارسالی، نرخ دادة ارسالی، زیرکانال انتخابشده برای ارسال و تعداد تکرارهای ارسال بهازای هر بسته دارد و نماد نیز نشاندهندة مجموعه مقادیر ممکن برای است.
یک راهحل ابتدایی برای مسئلۀ (1)، حل آن با کمک ابزارهای بهینهسازی و بهصورت متمرکز در سرور برای همۀ اعضای است. این راهحل باوجود پیچیدگی بالا، به اطلاعداشتن از پارامترهای مخابراتی سایر اشیاء نیاز دارد؛ درنتیجه، در یک رویکرد توزیعشده، کاربردی نیست. بنابراین، بهجای استفاده از راهحل متمرکز، در این پژوهش از رویکرد یادگیری توزیعشده استفاده میشود. در بخش زیر، ابتدا یادگیری ماشینی و کاربرد آن در اینترنت اشیاء بررسی میشود. سپس در بخش چهارم، حل مسئلۀ (1) با کمک یادگیری ماشینی توزیعشده بررسی میشود.
یادگیری ماشینی که در آن، یک واحد هوشمند، اطلاعات موجود را پردازش کرده است و برای خوشهبندی، پیشبینی یا تصمیمگیری به کار میرود، در حالت کلی به سه دستۀ یادگیری با دادههای نشاندار، با دادههای بینشان و یادگیری تقویتی[7] تقسیم میشود. در سالهای اخیر به لطف توسعة قدرت ذخیره و پردازش داده، یادگیری ماشینی در قسمتهای مختلف شبکه و حتی در سرویسهای اینترنت اشیاء جای خود را باز کرده است [22]؛ برای مثال، در [23] روشهای ارائهشده برای امنیت بیشتر ارتباطات اینترنت اشیاء بررسی شدهاند. یک روش پیشنهادی، یادگیری مشخصههای فیزیکی هر شیء، مانند تابع توزیع احتمال آفست فرکانسی آن، ازطریق بررسی عمیق ارتباطات گذشته و ارزیابی هویت هر پاکت بعدی دریافتی با این مشخصهها است.
بزرگترین مشکل در استفاده از یادگیری با دادههای نشاندار و با دادههای بینشان، نیاز به حجم دادۀ نسبتاً بالا برای پردازش و همگراشدن راهحل است که کاربرد آن را در راهحلهای توزیعشده در سمت اشیاء، ناممکن میکند و بهطور معمول، مدنظر در سمت شبکه و سرورها است. همچنین، یادگیری تقویتی که در آن هر شیء ازطریق ارتباط با محیط و تجربه، بهتدریج پاداش درازمدت هر عمل را درک میکند، بهطور گسترده در سمت ابزارهای هوشمند شایان توجه قرار گرفته است [22]. از مهمترین مدلهای یادگیری در این حوزه میتوان به یادگیری چندانتخابی[8](MAB) و یادگیری Q، معروف به Q-learning اشاره کرد [22]. در هردو روش، کاربر تصمیمگیرنده برای هر عمل یک نمایه در نظر میگیرد و با توجه به تجربۀ حاصل از انتخاب آن، برای اولویت دادن یا ندادن به آن عمل تصمیم میگیرد. تفاوت این دو الگوریتم، به تفاوت نگاه آنها به محیط برمیگردد که در اولی، محیط با یک حالت (state) مدل میشود؛ درحالیکه در دومی، محیط پیرامون با تعدادی حالت مدل میشود و ارزش هر عمل در هر حالت جداگانه بررسی میشود.
در این پژوهش که اینترنت اشیاء با نیاز مبرم به بهینهگی انرژی بررسی میشود، روی مدل یادگیری MAB تمرکز میشود تا سربار انرژی و پیچیدگی پردازش داده و تصمیمگیری در اشیاء به حداقل برسد.
در این بخش، راهحلی مبتنی بر مدل MAB برای خودسازماندهی اشیای متصل به اینترنت ارائه شده است. در روش یادگیری توزیعشدة MAB، هر دستگاه برای بیشینهسازی مقدار تابع هدف خود، ، تلاش میکند. این کار با استفاده از بهترین انتخاب ( ) از مجموعه تصمیمات ( ) انجام میگیرد: . برای انتخاب بهترین تصمیم، پاداش[9] (نتیجه) اقدامات قبلی باید به نحوی ذخیره و پردازش شوند؛ برای مثال، بعد از انتخاب یک تصمیم در زمان ، یعنی ، دستگاه میتواند گزارش دریافت از سوی نقطۀ دسترسی یا سرور را یک پاداش در نظر بگیرد. این گزارش دریافت با نمایش داده میشود و در آن، 0 و 1 بهترتیب بیانکنندة پیام تصدیق دریافت و عدمتصدیق[10] هستند. هدف عامل بیشینهکردن میزان مجموع پاداش در طول زمان و کمینهسازی میزان ضررهای[11] متحملشده در تصمیمگیریهایش است. رویکرد مبتنی بر MAB باعث ایجاد تعادل بین فرایند اکتشاف و استخراج[12] میشود. «اکتشاف» به بازههای تصمیمگیری اشاره دارد که در آن عامل تلاش میکند مجموعه گزینههای گوناگون را تست کند؛ حتی در صورتی که پاداشهای قبلی این اقدامات کمتر از دیگر مجموعه اقدامات باشد. «استخراج» بیانکنندة زمانهای تصمیمگیری است که عامل براساس مشاهدات قبلی، بهصورت حریصانهای برای افزایش پاداش تلاش میکند. با توجه به کاربردهای گستردة الگوریتم یادگیری MAB در زمینههای مختلفی مانند رباتیک، این الگوریتم به خوبی در ادبیات این پژوهش بررسی شده و راهحلهای کارآمدی بهمنظور کمینهسازی میزان ضرر در تصمیمگیریها پیشنهاد شده است. در ادامة مقاله تلاش شده است رویکردهایی برای حل مسئلة کنترل پارامترهای مخابراتی در دستگاههای اینترنت اشیاء در دو محیط متفاوت ارائه شوند: 1) محیط با تداخل روی کانال داده و عدم تداخل روی کانال پسخورد و 2) محیط با تداخل روی کانال داده و پسخورد.
در محیط با تداخل روی کانال داده، مسئلۀ یادگیری، MAB تصادفی[13] نامیده میشود. برای MAB تصادفی که در آن، پاداش هر عمل از یک تابع چگالی احتمال به دست میآید، خانوادۀ الگوریتم [14]UCB، کمینۀ ضرر ممکن را به دست میآورد [22]. به عبارت دیگر، این الگوریتم به انتخاب تصمیم با بالاترین کران اطمینان در برآوردهکردن پاداش بیشینه همگرا میشود. در میان الگوریتمهای خانوادۀ UCB، ما بر ، ارائهشده در [24] تمرکز میکنیم که در آن ضرر ناشی از تصمیمگیری با نرخ O( ) رشد میکند [25].
در محیط با تداخل روی کانال داده و پسخورد با شرایطی مواجه هستیم که هم یک پاکت ممکن است به مقصد نرسد و هم ACK مربوط به یک پاکت رسیده به مقصد نیز ممکن است در اثر تداخل به گیرنده نرسد. در این شرایط مسئلۀ یادگیری به نام MAB غیرتصادفی شناخته میشود که در آن، پاداش هر تصمیم لزوماً از یک تابع چگالی احتمالِ خاص مشتق نمیشود (چون پیام حاوی پاداش نیز ممکن است در اثر تداخل از بین برود). نمونههایی از MAB غیرتصادفی، محیط با تداخل خصمانه است که در آن یک عنصر متخاصم میتواند با تداخل روی کانال پسخورد، کارایی ارتباطات را دچار مشکل کند. علاوه بر این، در کاربردهای اینترنت اشیاء در باند ISM، تداخل از سوی شبکههای دیگر میتواند در کانال پسخورد تداخل ایجاد کند.
الگوریتمهای متعدد برای یادگیری MAB با تداخل غیرتصادفی در ادبیات این حوزه حضور دارند که در میان آنها عملکرد الگوریتم EXP3 بهینه است [26]. الگوریتم EXP3 در هر زمان تصمیمگیری ، یک تصمیم از مجموعه را براساس توزیعهای احتمال پاداش آنها انتخاب میکند؛ یعنی به بیان آماری: . میزان ضرر از تصمیمگیری براساس الگوریتم EXP3 با مرتبة زمانی رشد میکند که این میزان، کمینۀ رشد بین سایر الگوریتمها است [23].
به یاد بیاوریم هدف مسئلة بهینهسازی (1)، بیشینهکردن سطح اطمینان و بهرهوری انرژی دستگاهها است. در این بخش و با هدف ارائه یک راهحل توزیعشده برای این مسئله، دو الگوریتم یادگیری مبتنی بر MAB ارائه شده که در آنها دو معیار میزان موفقیت و مصرف انرژی در فرایند یادگیری در محیط با تداخل روی کانال داده و پسخورد لحاظ شده است. این دو الگوریتم در الگوریتم 1 و 2 ارائه شدهاند. در الگوریتم 1، در پایان هر انتقال موفقیتآمیز داده، فرستنده پیام تصدیق (ACK) دریافت میکند و مادامی که این تصدیق دریافت میشود، مقدار پاداش تجمعی برای تصمیم مربوطه یک واحد افزایش مییابد [22]. در نشانهگذاری استفادهشده، بیانکنندة مقدار انرژی مصرفشده برای ارسال بسته با استفاده از اقدام k، Emin حداقل انرژی مصرفشده در میان اقداماتی که با موفقیت یک بسته را ارسال کردهاند، تعداد دفعاتی که تا زمان t تصمیم انتخاب شده است، تصمیم گرفتهشده در زمان تصمیمگیری ، و
(3) |
نشاندهندۀ پاداش تغییریافتۀ تصمیم انتخابی در زمان است که تابعی از دریافت شدن یا نشدن ACK، یعنی است و در ادامه بررسی میشود. همچنین، پاداش تجمعی تصمیم k تا زمان ، پارامتر ایجاد تعادل بین سطح اطمینان و بهرهوری انرژی و در نهایت، ارزش انتخاب تصمیم در زمان است. همچنین، با استفاده از رویکرد مشابهی، در الگوریتم 2 بهجای ذخیره و بهروزرسانی ارزش یک تصمیم در پارامتر ، احتمال رسیدن به بیشترین پاداش ازطریق تصمیم ، یعنی ذخیره و بهروزرسانی میشود. در این الگوریتمها، α و پارامترهای طراحیاند که میان فازهای اکتشاف و استخراج در الگوریتم 1 و 2 (بهترتیب) تعادل ایجاد میکنند. با مقایسۀ الگوریتم 1 و 2 با مسئلۀ (1) مشاهده میشود F(Reli,EEi) در این الگوریتمها با استفاده از تابع پاداش تغییریافته، یعنی در (3)، مدلسازی شده است. در رابطة (3)، نشاندهندۀ پاداش خارجی (از طرف گیرنده با توجه به دریافت کردن یا نکردن پاکت) و نشاندهندۀ پاداش داخلی با توجه به میزان مصرف انرژی است.
راهحل ارائهشده در الگوریتم 1 و 2 یک راهحل توزیعشده است که براساس آن، هر دستگاه پارامترهای مخابراتی خود را با محیط تطبیق میدهد. در این قسمت، تکنیک انتقال یادگیری (transfer learning) برای افزایش سرعت همگرایی و درنتیجه، بهبود عملکرد سیستم بررسی میشود. الگوریتم 1 در هنگام آمادهسازی، ارزش هر تصمیم را برابر صفر و الگوریتم 2 نیز احتمال گرفتن بیشترین پاداش از انتخاب هر تصمیم را برابر با سایر تصمیمها در نظر میگیرد. حال اگر یک دستگاه جدید که شروع به فعالیت میکند از دستگاههای اطراف، نقطهدسترسی یا از سابقۀ ارتباطات قبلی، ارزش تصمیمها را از یک مقدار اولیه آغاز کند، به این فرایند، انتقال یادگیری میگویند. انتقال یادگیری، چه از سمت دستگاههای قویتر همسایه و چه از سمت شبکه، سرعت همگرایی الگوریتم یادگیری را به میزان زیادی افزایش میدهد که این افزایش با افزایش تعداد تصمیمها چشمگیر خواهد بود.
در بخش بعدی، رویکرد یادگیری پیشنهادشده برای کنترل اقدامات در دستگاههای اینترنت اشیاء بررسی شده است که با فناوری لورا به یکدیگر متصل شدهاند و نتایج بهدستآمده با رویکرد بهینه متمرکز مقایسه شده است.
لورا، لایة فیزیکی پروتکل لوراون[15]، تلاش میکند ارتباطات بیسیم در فواصل طولانی، با نرخ داده و مصرف انرژی پایین را میسر کند. ارتباطات در لورا در سه زیرکانال با پهنای باند هرکدام 125 کیلوهرتز و در باند فرکانسی ISM صورت میگیرد. مقاومت بالا در برابر نویز و تداخل از ملزومات اساسی برای کار در باند فرکانسی ISM است؛ براساس این، روش مدولاسیون CSS[16] در فناوری لورا استفاده شده است. مدولاسیون CCC امکان دریافت و تشخیص سیگنالهایی با فاکتورهای پخش(SF) متفاوت، بهصورت همزمان را ممکن میکند. فاکتور پخش در لورا بین 7 تا 12 تنظیم میشود که این اعداد به تعداد chirpهای استفادهشده برای کدکردن یک بیت اشاره دارند؛ ازاینرو، نرخ داده برای کد c با استفاده از فرمول زیر محاسبه میشود:
که در آن μ نرخ کد بین صفر و یک است. براساس ]27و28[، سیگنال به نویز موردنیاز برای تشخیص درست سیگنالهایی با فاکتور پخش {7,…,12}، بهترتیب برابر با
است. علاوه بر این، با افزایش c، میزان نرخ داده کاهش مییابد و تداخل نسبت به نویز از کاهش نرخ ارسال داده حاصل میشود. شایان توجه است در لوراون برای ارتباطات از توانهای انتقال 2، 5، 8، 11 و 14 (dBm) پشتیبانی میشود ]27و28[.
یک شبکۀ لورا متشکل از یک نقطۀ دسترسی و تعدادی دستگاه متصل را فرض کنید که در آن دستگاهها براساس فرایند نقطهای پوآسن[17] (PPP) و با تراکم λ در یک محدوده پراکنده شدهاند. هر فرستندۀ لورا بهطور میانگین در هر ثانیه یک پاکت به گیرنده ارسال میکند. با در نظر گرفتن رابطة (1)، برای تنظیم پارامترهای ارتباطی هر فرستنده، مسئلۀ زیر باید حل شود:
|
5-1-1- رویکرد توزیعشده |
با بهکارگیری الگوریتمهای (1)، ارائهشده در بخش 4، مسئلة بهینهسازی ارائهشده در رابطة (5) حل میشود؛ براساس این، مجموعه شامل 90 جفت تصمیم خواهد بود که هر جفت شامل یک توان ارسال، یک زیرکانال و یک کد است. نتایج استفاده از رویکرد توزیعشده در شکل 2 نشان داده شدهاند که در ادامه تحلیل خواهند شد.
این قسمت مربوط به تخصیص بهینۀ کدهای ارسال بین فرستندهها است و تعداد سطحهای توان ارسالی، تعداد بازارسال و تعداد زیرکانال برابر 1 در نظر گرفته میشود. علاوه بر این، تخصیص کدهای ارسال ششگانه تنها نسبت به تداخل از سوی فرستندههای لورا بهینه میشوند و سایر منابع تداخل در باند ISM در نظر گرفته نمیشوند. با در نظر گرفتن این امر که با افزایش کد ارسال از 6 به 12، نرخ ارسال داده کاهش مییابد و احتمال تصادم و مقاومت در برابر نویز افزایش مییابد، انتظار میرود فرستندههای نزدیک به ایستگاه پایه مقادیر فاکتور پخش کوچکتری نسبت به فرستندههای دورتر انتخاب کنند و برعکس ]11[. براساس این، میتوان ادعا کرد مسئلة تخصیص کد ارسال معادل مسئلۀ پیداکردن چگالی بهینة فرستندههای با یک کد ارسال مشابه در هر نقطه از شبکه است. بهمنظور حل این مسئله در یک فضای دوبعدی، ناحیة سرویسدهی را مجموعهای از 6 حلقه تقسیم میکنیم که هر حلقه دارای شعاع داخلی و شعاع خارجی است و اختصاص به یک کد ارسال دارد. با در نظر گرفتن نتایج بهدستآمده در ]29[ و توسعة آنها، میتوان تابع لاپلاس تداخل مربوط به دستگاههای توزیعشده در مین حلقه که با نشان داده شده را به این صورت به دست آورد:
(6) |
که در آن بهترتیب اشاره به توان ارسالی، زمان بین دو ارسال پاکت، طول بسته (بیت)، کد انتخابی برای ارسال و زمان انتقال دارند و نشاندهندة افت مسیر است. اکنون میتوان تابع لاپلاس تداخل دریافتی از همه دستگاههایی که از فاکتور پخش استفاده میکنند را بهصورت نوشت. اگر نویز سیستم را با و تداخل دریافتی از سوی فرستندههای گروه را با نشان دهیم، احتمال موفقیت در ارسال بسته برای یک فرستنده که از کد c استفاده میکند و در فاصلة از ایستگاه پایه قرار گرفته است، بهصورت زیر به دست میآید:
(7) |
که برابر سطح آستانة نویز تحملشدنی برای کد c و برابر سطح آستانة تداخل تحملشدنی است. همچنین، برای داریم:
حال، مسئلة (3) بهصورت زیر بازنویسی میشود:
(9) |
با حل این مسئلة بهینهسازی، چگالی استفاده از هر کد در محیط بهصورت تابعی از فاصله تا گیرنده به دست میآید. مشاهده میشود حل مسئلة بهینهسازی بهصورت متمرکز بسیار پیچیده است؛ حتی زمانی که برای سادهسازی آن فرض میشود دستگاهها در یک فضای دوبعدی و با فرایند نقطهای پوآسن توزیع شدهاند و تنها یک کانال لورا با یک سطح توان ارسال و بدون نویز خارجی وجود دارد. در ادامه، کارآیی راهحل بهینة متمرکز با رویکرد یادگیری توزیعشده مقایسه میشود.
شکل (2) احتمال موفقیت در ارسال داده با رویکرد توزیعشدة حاصل از الگوریتم 1 و نتایج مربوط به استراتژی بهینة متمرکز را برای شرایط زیر نشان میدهد:
مقادیر مربوط به دیگر پارامترها در جدول 1 آورده شدهاند. در شکل (2)، محور x نشاندهندة نمایۀ پاکتهای ارسالشده است. همانطور که در بالا نیز اشاره شد، هر فرستنده بهطور مستقل تصمیم میگیرد پاکتهایش را با استفاده از فاکتور پخش 7 یا 10 ارسال کند. بعد از تعداد کمی ارسال، مشهود است نتایج بهدستآمده با استفاده از یادگیری توزیعشده بسیار نزدیک به رویکرد متمرکز شده است و ضرر ناشی از تصمیمگیری (regret) به صفر نزدیک میشود. باید توجه کرد یادگیری توزیعشده با وجود داشتن تفاوت کمی با رویکرد بهینۀ متمرکز در احتمال موفقیت، در عمل باعث بهبود چشمگیر در افزایش طول عمر باتری خواهد شد. به این علت که با این روش، فرستنده بدون نیاز به گوشدادن به سیگنالهای کنترلی قادر است پارامترهای ارتباطی دستگاهها را بهصورت توزیعشده تنظیم کند.
شکل 2: مقایسة الگوریتم 1 و رویکرد بهینة متمرکز در تخصیص کد به فرستندههای لورا
در این بخش نتایج شبیهسازی عملکرد الگوریتم مبتنی بر یادگیری ماشینی در فناوری لورا ارائه شدهاند. در این شبیهسازی، 500 فرستنده در یک محیط دایروی با شعاع 2 کیلومتر و بهطور تصادفی پراکنده شدهاند. هدف، توزیع دو سطح متفاوت توان ارسالی 8 و 14 (dBm) و انتخاب یک زیرکانال از 6 زیرکانال در میان این فرستندهها است. پارامترهای شبیهسازی در جدول 1 آورده شدهاند. در نتایج مربوط به شبیهسازی، الگوریتم 1 و 2 به الگوریتمهای ارائهشده در بخش 4 و الگوریتم 3 به الگوریتم متمرکز ارائهشده در [11] اشاره دارد که در آن، بار بهطور مساوی بین زیرکانالها توزیع میشود. الگوریتم 4 نشاندهندة الـگوریتم استـفادهشـده در [18] است که در آن، زیرکـانال بهصورت تصادفی انتخاب میشود. در پایان، نمایۀ C در جلوی نام یک الگوریتم نشان میدهد که فقط کد ارسالی با آن الگوریتم انتخاب میشود و توان ارسالی برابر 14 dBm است؛ درحالیکه نمایۀ (C,P) نشان میدهد توان و کد ارسالی هردو با الگوریتم انتخاب میشوند. در پایان، الگوریتم 5 نشاندهندة روش یادگیری بهکاررفته در [19و20] است که برخلاف روش پیشنهادی ما، در تابع پاداش آن صرفهجویی در مصرف انرژی در نظر گرفته نشده است. شکل 3، احتمال موفقیت در ارسال داده را برای 2 الگوریتم ارائهشده در این کار (الگوریتم 1 و 2) و دو الگوریتم پایه برای سنجش (الگوریتم 3 و 4) نشان میدهد. محور x نشاندهندۀ نمایۀ پاکتهای ارسالی (درواقع نشاندهندة سیر زمان) است. در بازۀ میانی از زمان، یک تداخل شدید در 2 زیرکانال از مجموع 6 شش زیرکانال اتفاق میافتد.
جدول (1): پارامترهای ارزیابی عملکرد ]16[
پارامتر |
مقدار |
ناحیة سرویس |
دایرهای با شعاع 2 کیلومتر |
نرخ تجمعی ورود بسته |
5/2 بر ثانیه |
طول بسته |
20 بایت |
تعداد زیرکانالها |
1 زیرکانال |
پهنای باند: |
125 کیلوهرتز |
نرخ کد: μ |
8/0 |
آستانة سیگنال به نویز |
|
آستانة سیگنال به تداخل |
6 dB |
توان مصرفی: Pt, Pc, η |
{8,14}dBm, 10dBm, 2 |
پارامترهای یادگیری (پیشفرض) |
4/0، 4/0، 1/0 |
جدول (2): مقایسة کلی روشهای بررسیشده در مقاله
نام روش |
سال |
انتخاب پارمتر |
محل انتخاب |
تابع هدف |
مرجع [11] |
2019 |
تقسیم مساوی |
مرکزی |
احتمال موفقیت |
مرجع [18] |
2019 |
تصادفی |
توزیعشده |
احتمال موفقیت |
مرجع [19] |
2019 |
یادگیری |
توزیعشده |
احتمال موفقیت |
مرجع [20] |
2020 |
یادگیری |
توزیعشده |
احتمال موفقیت |
پیشنهادی |
2020 |
یادگیری |
توزیعشده |
احتمال موفقیت و مصرف انرژی |
در شکل 3، مدت زمان پاسخ به تداخل، طول تداخل و زمان پاسخ به رفع تداخل مشخص شدهاند. مشاهده میشود الگوریتم مبتنی بر یادگیری ماشینی قادر است با سرعت خوب خود را با شرایط محیط تطبیق دهد و احتمال موفقیت را در ارسال داده، با وجود و بدون وجود تداخل، به مقدار بیشینه نزدیک کند. همچنین، مشاهده میشود الگوریتم 2، در این شرایط که روی کانال پسخورد تداخل نداریم، با سرعت پایین همگرا میشود؛ چون به نتایج ACK دریافتی به اندازة الگوریتم 1 اعتماد ندارد. همیـن نبودن اعتماد اســت کــه در شرایط جمینگ و تداخل روی کانال پسخورد، به این الگوریتم کمک میکند عملکرد بهینهتری نسبت به الگوریتم 1 داشته باشد [21].
شکل 3: احتمال موفقیت در ارسال پاکت برحسب زمان برای الگوریتمهای پیشنهادی و پایه
شکل 4: احتمال موفقیت در ارسال پاکت برحسب زمان برای الگوریتم پیشنهادی با مقادیر مختلف
شکل 5: نمایۀ زیرکانال انتخابشده
شکل 6: نحوۀ پاسخ الگوریتم 1 به یک تداخل
شکل 7: احتمال موفقیت در ارسال پاکت برحسب زمان برای الگوریتم پیشنهادی با مقادیر مختلف
شکل 8: مصرف انرژی در ارسال یک پاکت برحسب زمان برای الگوریتم پیشنهادی با مقادیر مختلف
شکل 4 نشاندهندۀ عملکرد الگوریتم 1 برای مقادیر مختلف پارامتر ، پارامتر ایجاد تعادل بین تجربۀ تصمیمهای دیگر و استفاده از تجربۀ گذشته است. مشاهده میشود انتخاب یک مقدار بهینه برای این پارامتر که در اینجا 05/0 است، به سیستم کمک میکند تا در مقابل تداخلهای احتمال، واکنش به موقع نشان دهد و نیز در هنگام رفع تداخل به سرعت به حالت بهینۀ سابق برگردد.
شکل 5 نشاندهندۀ نمایۀ تصمیم انتخابشده با الگوریتم 1، 3 و 4 برحسب زمان برای یک دستگاه خاص است. مشاهده میشود دستگاه با استفاده از الگوریتم 1 پس از تجربۀ موفقنبودن روی زیرکانال 1 و 2 دیگر به ندرت به آنها مراجعه میکند.
شکل 6 نشاندهندۀ نحوۀ توزیع زیرکانالها بین کاربران با استفاده از الگوریتم 1 در قبل، حین و بلافاصله بعد از رفع تداخل است. مشاهده میشود کاربران قبل از وقوع تداخل روی کانالهای مختلف به خوبی پخش شدهاند. پس از وقوع تداخل در دو زیرکانال، استفاده از این دو زیرکانال بهتدریج کم میشود. بلافاصله پس از رفع تداخل نیز مشاهده میشود کابران دوباره به استفاده از این زیرکانالها متمایل میشوند. دقت شود حتی در میانۀ تداخل شدید روی این دو زیرکانال، الگوریتم یادگیری ماشینی آنها را گاهی با ارسال داده بررسی میکند که این تکرر بررسی با پارامتر تنظیم میشود.
شکل 7 و 8 نشاندهندۀ میزان موفقیت و مصرف انرژی با کمک الگوریتم 1 و 5 در حالتی است که علاوه بر زیرکانال ارسال داده، توان ارسالی نیز با یادگیری ماشینی تنظیم شود. بر طبق رابطۀ (3)، تعادل بین بهرهوری انرژی و احتمال موفقیت را در تابع هدف برقرار میکرد. شکل 7 نشان میدهد با افزایش تعداد تصمیمها (در نظر گرفتن توان ارسالی نیز بهعنوان یک تصمیم)، زمان لازم برای همگرایی نیز در مقایسه با الگوریتم 5 افزایش مییابد که تصمیمهای کمتری دربردارد. این تأخیر در همگرایی، در پاسخ الگوریتمها به تداخل ایجادشده نیز درخور توجه است که نمودار سبز نسبت به سیاه عملکرد پایینتری دارد. شکل 8 مصرف انرژی را برای الگوریتم 1 و هریک از مقادیر در مقایسه با الگوریتم 5 را نشان میدهد. مشاهده میشود استفاده از الگوریتم یادگیری برای انتخاب سطح توان ارسالی همواره به کاهش انرژی مصرفی منجر میشود و این کاهش انرژی با افزایش ، پارامتر ایجاد تعادل در تابع هدف (3)، افزایش مییابد. مقایسۀ تطبیقی شکل 7 و 8 نشان میدهد کاهش مصرف انرژی ممکن است با کاهش احتمال موفقیت همراه باشد؛ درنتیجه، باید در انتخاب مقدار مناسب برای پارامتر با توجه به نوع کاربرد اینترنت اشیای مدنظر و کیفیت سرویس درخواستی، دقت لازم به کار برده شود.
در این پژوهش، راهکارهای ممکن برای بهبود قابلیت اطمینان و طول عمر باتری اینترنت اشیاء بررسی شده است. کاهش سیگنالینگ بین فرستندههای اینترنت اشیاء و شبکۀ دسترسی در شبکههای ارتباطی مبتنی بر دسترسی آزاد به منابع رادیویی، مانند لورا، به کاهش مصرف انرژی در ارسال دادهها و افزایش احتمال تصادم دادهها در انتقال منجر میشود. در این پژوهش، الگوریتمهای یادگیری ماشینی با قابلیت پیادهسازی در اینترنت اشیاء بررسی شده و یک راهحل مبتنی بر یادگیری توزیعشده با پیچیدگی کم برای پیادهسازی در فرستندههای اینترنت اشیاء پیشنهاد شده است.
در این راهحل، از پاداش داخلی و خارجی بهترتیب برای کمینهسازی مصرف انرژی و احتمال تصادم در زمان انتقال داده روی کانالهای اشتراکی استفاده شده است. سپس عملکرد این روش توزیعشده با روش مبتنی بر راهحل بهینة متمرکز توسعه داده شده با استفاده از هندسة تحلیلی، مقایسه شده و همگرایی الگوریتم توزیعشده تأیید شده است. نتایج حاصل از شبیهسازی شبکة ارتباطی لورا با کمک الگوریتم توزیعشده نشاندهندة بهبود چشمگیر در احتمال موفقیت در ارسال داده و افزایش طول عمر باتری دستگاهها است. این نتایج نشان میدهند در صورت استفاده از این روش یادگیری در دستگاههای اینترنت اشیاء، این دستگاهها قادر به سازگاری خود با محیط پیرامون و تداخل احتمالی خواهند بود که نتیجة آن، افزایش قابلیت اطمینان در ارتباطات بهصورت خودکار است.
[1] تاریخ ارسال مقاله: 06/06/1398
تاریخ پذیرش مقاله: 14/05/1399
نام نویسنده مسئول: امین آذری
نشانی نویسنده مسئول: سوئد، استکهلم، دانشگاه استکهلم
[2] Reinforcement Learning
[3] Multi-Arm Bandit
[4] Offloading
[5] Edge processing
[6] Autonomous IoT (AIoT)
[7] Supervised/unsupervised, reinforcement learning
[8] Multi-arm bandit
[9] Rewards
[10] ACK and NACK
[11] Regret
[12] Exploration and exploitation
[13] Stochastic MAB
[14] Upper Confidence Bound
[15] LoRa Wide Area Network (LoRaWAN)
[16] Chirp Spread Spectrum
[17] Poisson point process (PPP)