Mid-Term Residential Load Forecasting Based on Neighborhood Component Analysis Feature Selection

Document Type : Research Article

Authors

1 Department of Electrical Engineering, Najafabad Branch, Islamic Azad University, Najafabad, Iran

2 Department of Electrical Engineering, Najafabad Branch, Islamic Azad University, Najafabad, Iran / Smart Microgrid Research Center, Najafabad Branch, Islamic Azad University, Najafabad, Iran

Abstract

Residential load forecasting plays an important role in management and planning in modern smart grids. In planning to keep demand and supply balanced, accurate residential load forecasting is needed. This paper presents a mid-term residential load forecasting method based on feature selection for solving the linear regression problem. Utilization of neighborhood component analysis Method is proposed in this paper. For this purpose, an optimization problem is designed and the problem is solved using LBFGS algorithm. The AMPds2 dataset is used to implement the proposed method and the results were compared with the results of the other six forecasting methods. Comparisons were made by means of mean squared error, root mean squared error, and mean absolute percentage error. The simulation results confirm the effectiveness of the proposed method for accurate residential load forecasting.

Keywords


1- مقدمه[1]

پیش‌بینی بار نقش مهمی در توسعه و مدرن‌سازی سیستم‌های قدرت دارد. پیش‌بینی بار ازنظر مدت زمان پیش‌بینی، به دسته‌های کوتاه‌مدت، میان‌مدت و بلندمدت تقسیم می‌شود. پیش‌بینی بلندمدت بار برای برنامه‌ریزی ساختن تأسیسات تولید توان استفاده می‌شود؛ در حالی که پیش‌بینی‌های کوتاه‌مدت و میان‌مدت برای برنامه‌ریزی و مدیریت عملکرد سیستم‌های قدرت ضروری‌اند [1]. با افزایش نفوذ توان تولیدشده از منابع تجدید‌پذیری همچون باد و نور خورشید و تغییر الگوی مصرف و نوع بار در مناطق مسکونی، پیش‌بینی توان مورد نیاز این نوع مصرف‌کنندگان پیچیده‌تر و سخت‌تر شده است؛ برای مثال، استفاده از خودروهای الکتریکی و نیاز این نوع خودروها به شارژشدن در منازل مسکونی، موجب افزایش مصرف توان و عدم قطعیت‌های موجود در سیستم‌‌های قدرت خواهد شد. پیش‌بینی دقیق بار در سطح مصرف‌‌کنندگان مناطق مسکونی موجب ساده‌ترشدن عملیات در سیستم‌های قدرت می‌شود. همچنین پیش‌بینی بار مسکونی مقدمه‌ای برای استفاده از منابع تجدیدپذیر در تأمین توان مورد نیاز منازل مسکونی است. همچنین از این طریق، چگونگی استفاده از فن‌آوری‌های جدید مانند اتصال خودرو‌‌های الکتریکی به شبکۀ برق برای عملیاتی همچون کاهش پیک بار ممکن می‌شود.

در بسیاری از کشورها سیستم‌های قدرت سنتی به سمت مدرن‌شدن در قالب شبکه‌های هوشمند پیش می‌روند. در این کشورها زیرساخت‌های اندازه‌گیری پیشرفته در شبکه‌های توزیع در مناطق مسکونی وجود دارد. بر مبنای اندازه‌گیری‌های انجام‌شده، می‌توان بسیاری از عملیات‌ها را در سیستم‌های قدرت آینده انجام داد؛ عملیاتی همچون تجمیع توان تولیدشده از انرژی‌های نو با شبکۀ اصلی و مدیریت سمت تقاضا که در سیستم‌های قدرت در آینده حائز اهمیت‌اند. برخلاف بار الکتریکی در سطح سیستم قدرت، مصرف برق خانگی معمولاً دارای نوسانات بالایی است و این باعث می‌شود پیش‌بینی بار مبتنی بر اندازه‌گیری برای یک مصرف‌کنندۀ منفرد بسیار چالش‌برانگیز باشد.

در زمینۀ پیش‌بینی بار به پژوهش انجام‌شده در مرجع [2] اشاره می‌شود. در این مرجع، روشی چهاربخشی با هدف پیش‌بینی بار و قیمت برق ارائه شده است. در بخش اول از تبدیل موجک گسسته برای ریزسازی سیگنال اصلی با حفظ اطلاعات با ارزش استفاده شده است. بخش دوم از مدل الگوریتم انتخاباتی فازی برای انتخاب بهترین داده‌ها با بیشترین ارتباط و کمترین تکرار بهره می‌گیرد و بخش سوم یک موتور پیش‌بینی‌‌کننده براساس سیستم چندورودی چندخروجی بردار پشتیبان است. درنهایت، بخش چهارم با توجه به تابع هدفی متشکل از خطای ناشی از پیش‌بینی و روش بهبودیافتۀ کلونی مصنوعی زنبورعسل به تنظیم شاخص‌های شبکۀ بردار پشتیبان پیشنهادی می‌پردازد.

اگرچه پژوهش‌های فراوانی در زمینۀ پیش‌بینی بار انجام شده است، مراجع اندکی در زمینۀ پیش‌بینی بار مبتنی بر اندازه‌گیری وجود دارد. در زمینۀ پیش‌بینی بار براساس اندازه‌گیری‌های انجام‌شده برای یک مصرف‌کننده به مطالعۀ انجام‌شده در مرجع [3] اشاره می‌شود. در این مرجع، روشی مبتنی بر سری‌های زمانی کاربردی و در مرجع [4] از تخمین‌زننده‌ای براساس فیلتر کالمن برای پیش‌بینی بار مسکونی استفاده شده است. نقطه‌ضعف این مراجع نبود مقایسه بین نتایج به‌دست‌آمده در آنها با روش‌‌های پیش‌بینی دیگر است. در مرجع [5] بار مسکونی با استفاده از روش‌های یادگیری ماشین همچون شبکۀ عصبی چندلایه و رگرسیون ماشین بردار پشتیبان پیش‌بینی شده است. در مرجع [6] از شبکۀ عصبی چندلایۀ پیش‌خور برای پیش‌بینی روز - پیش بار مسکونی در شهر آمستردام هلند استفاده شده است. روش‌های یادگیری عمیق در بسیاری از زمینه‌ها مانند شناسایی تصویر و صوت بررسی شده‌اند و نتایج خوبی ارائه داده‌اند. در مراجع [3]، [7] و [8] از شبکۀ عصبی حافظۀ کوتاه‌مدت بلند[1] (LSTM) برای انجام پیش‌‌بینی بار مسکونی مبتنی بر داده‌های اندازه‌گیری‌شده استفاده شده است. در این پژوهش‌ها مقایسۀ بسیار خوبی میان نتایج به‌دست‌آمده با استفاده از این نوع شبکۀ عصبی با سایر روش‌های یادگیری عمیق انجام شده است که نشان می‌دهد استفاده از شبکۀ عصبی کوتاه‌مدت بلند نتایج خوبی در پیش‌بینی بار مسکونی ارائه داده است.

در این مقاله، استفاده از روشی مبتنی بر انتخاب ویژگی برای حل مسئلۀ رگرسیون خطی پیشنهاد می‌شود. این روش با نام تحلیل اجزای مجاور[2] شناخته می‌شود و برای حل مسائل دسته‌بندی و رگرسیون در مباحث یادگیری ماشین استفاده شده است. در این روش از الگوریتم حافظۀ محدودBFGS[3] (LBGFS) برای حل مسائل انتخاب ویژگی و رگرسیون استفاده می‌شود. در مراجع [3] و [6] از مجموعه داده [4]AMPds برای پیاده‌سازی الگوریتم‌های پیش‌بینی استفاده شده است. در این مقاله نیز از نسخۀ دوم همین مجموعه داده برای نشان‌دادن کارایی روش پیشنهادی استفاده شده است تا امکان مقایسۀ نتایج به‌دست‌آمده با یکدیگر باشد. روش تحلیل اجزای مجاور، روشی مبتنی بر قانون نزدیک‌ترین همسایه است. روش پیشنهادی در این مقاله، طرح انتخاب ویژگی به‌ روش تحلیل اجزای مجاور برای حل مسئلۀ رگرسیون خطی در قالب مسئلۀ بهینه‌سازی است. روش مدنظر برای حل مسئلۀ طرح‌شده، روش LBFGS است که روشی برای حل مسئلۀ بهینه‌سازی در مباحث یادگیری ماشین است.

در ادامه، در بخش دوم، مسئلۀ انتخاب ویژگی برای رگرسیون به روش تحلیل اجزای مجاور و روش حل آن ارائه شده است. در بخش سوم، نتایج شبیه‌سازی ارائه شده‌اند و مقایسه‌ای میان نتایج به‌دست‌آمده با سایر روش‌های پیش‌بینی، انجام و نتیجه‌گیری پژوهش در بخش چهارم ارائه شده است.

 

2- تحلیل اجزای مجاور برای رگرسیون

با ظهور داده‌های با ابعاد بالا و کاربردهای مختلفی مانند بازیابی اطلاعات، طبقه‌بندی خودکار متن، شیمی ترکیبی و بیوانفورماتیک، انتخاب ویژگی در داده‌کاوی[5] (DM) و یادگیری ماشین[6] (LM) اهمیت بیشتری پیدا کرده است [9]. انتخاب ویژگی تکنیک انتخاب زیرمجموعۀ کوچک از مجموعۀ مشخصی از ویژگی‌ها با از بین بردن ویژگی‌های بی‌ربط و زائد است. انتخاب مناسب ویژگی‌ها نه‌تنها با کاهش ابعاد ویژگی‌ها مقدار داده‌های به‌کاررفته در مرحلۀ یادگیری را کم می‌کند، اثر سوء ابعاد بالای داده‌ها را برای بهبود عملکرد تعمیم یا لگوریتم‌ها کاهش و سرعت اجرای مدل‌ها را افزایش می‌دهد. به‌طور کلی، الگوریتم‌های انتخاب ویژگی‌ معمولاً در یکی از سه دستۀ زیر قرار می‌گیرند [10]: فیلتر[7]، وارپر[8] و روش‌های چندبخشی[9].

در مدل فیلتر، انتخاب ویژگی با ارزیابی زیرمجموعۀ ویژگی با توابع معیار مشخص‌‌کنندۀ خصوصیات ذاتی داده‌های آموزش، مانند فاصله بین داده‌های در هر دسته (مثل امتیاز فیشر)، معیارهای آماری (مانند مربع چی[10]) و معیارهای نظری اطلاعات انجام می‌شود که شامل بهینه‌سازی عملکرد هر طبقه‌بندی خاص به‌طور مستقیم نیست. درمقابل، دو روش دیگر به الگوریتم‌های دسته‌بندی مشخصی وابسته‌اند و در بیشتر موارد، بهتر از روش‌های فیلتر عمل می‌کنند. مدل وارپر برای انتخاب ویژگی‌ها به یک دسته‌بندی‌کننده نیاز دارد و از عملکرد آن برای ارزیابی میزان شایستگی زیرمجموعه‌های ویژگی انتخاب‌شده استفاده می‌کند. با توجه به اینکه دسته‌بندی‌کننده باید برای هر زیرمجموعه ویژگی مدنظر آموزش داده شود، روش وارپر ازنظر محاسباتی فشرده است؛ بنابراین، بیشتر برای حل مسائل انتخاب ویژگی در مقیاس بزرگ مناسب نیست. در مدل چند‌بخشی، انتخاب ویژگی در ساختار دسته‌بندی‌‌کننده قرار می‌گیرد و معمولاً از روش شیب نزولی[11] (GD) برای بهینه‌سازی وزن ویژگی‌ها استفاده می‌شود که نشان‌دهندۀ ارتباط بین ویژگی‌های مربوطه و هدف (دستۀ مدنظر در مسائل دسته‌بندی و مقدار عددی مدنظر در مسائل رگرسیون) است. مزیت این روش در کمتربودن احتمال وقوع overfit و نیز موثرتربودن آن نسبت به روش وارپر است [11]. در آموزش نظارت‌شده به حفظ ورودی‌ها و خروجی‌ها به جای یادگیری آنها overfit گفته می‌شود.

نزدیک‌ترین همسایه[12] یک قانون تصمیم‌گیری غیرخطی ساده و کارآمد است و بیشتر در مقایسه با روش‌های دسته‌بندی پیشرفته مانند ماشین‌های بردار پشتیبان[13] (SVM) و شبکه‌های عصبی، نتایج رقابت‌پذیری ارائه می‌دهند. الگوریتم انتخاب ویژگی تحلیل اجزای مجاور (NCA) یک روش غیر پارامتری و چندبخشی برای انتخاب ویژگی‌ها با هدف حداکثرکردن دقت پیش‌بینی در مسائل رگرسیون و دسته‌بندی است [10].

 

1-2- رگرسیون

رگرسیون روشی مستقیم برای پیش‌بینی یک مقدار عددی (Y) براساس متغیر پیش‌بینی‌کننده (X) است. مسئلۀ رگرسیون به‌صورت زیر بیان می‌شود [11]:

(1)

 

 

 و مقادیری ثابت‌اند که به‌ترتیب پارامتر‌های رهگیری و شیب نامیده می‌شوند. مجموعه  و ها با نام ضرایب مدل شناخته می‌شوند. در روش رگرسیون، در ابتدا بخشی از مجموعه داده‌ها به عنوان داده‌های آموزش در نظر گرفته می‌شوند. مجموعه داده‌های آموزش برای تخمین‌زدن مقدار ضرایب مدل استفاده می‌شوند. سپس برای انجام پیش‌بینی با استفاده از داده‌های جدید، مجموعه ضرایب تخمین زده شده در مرحلۀ آموزش استفاده می‌شوند.

 

2-2- انتخاب ویژگی برای مسئلۀ رگرسیون

فرض کنید مجموعۀ  مجموعه‌ای از نمونه‌های آموزشی باشد؛ به‌ طوری که xi برداری d-بعدی از ویژگی‌ها، مقادیر پاسخ‌ها است و N تعداد نمونه‌ها باشد. هدف پیش‌بینی پاسخ (یعنی yها) است که در مجموعه S ارائه شده است. یک مدل رگرسیون تصادفی به شکل زیر را در نظر بگیرید [12]:

1- مدل رگرسیون به‌طور تصادفی یک نقطه از S را به‌عنوان نقطۀ مرجع برای نقطه x، Ref(x) انتخاب می‌کند.

2- مقادیر پاسخ در نقطه x، برابر با مقادیر پاسخ در نقطه‌ی مرجع‌اند.

فاصلۀ وزنی بین دو نمونه xi و xj برابر است با:

(2)

 

 

در اینجا wl وزن مربوط به ویژگی‌ lام است. احتمال انتخاب نقطه xj از مجموعه S به‌عنوان نقطۀ مرجع برای نقطه x برابر با رابطه زیر است:

(3)

 

(4)

 

 

 یک تابع کرنل است و  بیان‌کنندۀ اندازۀ کرنل و یک پارامتر ورودی است که بر احتمال انتخاب هر یک از نقاط به‌عنوان نقطۀ مرجع تأثیر می‌گذارد. به‌ویژه اگر میل کند، فقط نزدیک‌ترین همسایه به نمونۀ مدنظر می‌تواند به‌عنوان نقطۀ مرجع انتخاب شود. همچنین اگر  میل کند، تمامی نقاط به جز نقطۀ مدنظر، برای انتخاب‌شدن از شانس مساوی برخوردارند. با فرض اینکه این مدل رگرسیون تصادفی قرار است در عملکرد کاربرد Leave-One-Out، استفاده و پاسخ xi با استفاده از داده‌های S-i پیش‌بینی شود، احتمال آنکه نقطه xj به‌عنوان نقطۀ مرجع xi انتخاب شود، از رابطه زیر به ‌دست می‌آید.

(5)

 

(6)

 

 

اکنون فرض کنید  مقدار عددی پاسخی باشد که مدل رگرسیون تصادفی پیش‌بینی می‌کند و  پاسخ واقعی برای xiباشد، تابع تلفات  به شکلی تعریف می‌شود که بیان‌کنندۀ تطابق‌نداشتن و باشد. مقدار میانگین برابر است با:

(7)

 

 

پس از اضافه‌کردن پارامتر تنظیم، تابع هدف به‌منظور بهینه‌سازی برابر است با [11]:

(8)

 

 

3-2- حل مسئله

بسیاری از مسائل در مباحث یادگیری ماشین، یک مسئلۀ بهینه‌سازی نامقید، غیرخطی و غیرمحدب به شکل زیرند [13]:

(9)

 

 

که در آن  تابعی از مشاهده iام در مجموعه داده‌های آموزش (مانند مجموعه S) است. از رابطه (9) با عنوان ریسک تجربی[14] نیز یاد می‌شود. این نوع از مسائل دارای ویژگی‌های بسیاری‌اند که به موجب آنها الگوریتم‌های بهینه‌سازی مرسوم برای حل آنها موثر نیستند. اول آنکه مقادیر M و N در رابطه (9) مقادیر بسیار بزرگی‌اند (به‌طور معمول ) و دوم آنکه نوع خاصی از افزونگی در رابطه (9) وجود دارد که به دلیل شباهت بسیاری از نقاط داده‌های آموزش یکدیگر است.

 هدف مرحلۀ بهینه‌سازی، به‌دست آوردن بهترین مجموعه وزن‌های ممکن به طوری است که تابع به‌دست‌آمده برای مدل پیش‌بینی، مقدار متغیر هدف را با بالاترین دقت ممکن پیش‌بینی کند. دو روش بهینه‌سازی پرکاربرد در یادگیری ماشین روش‌های نزول شیب تصادفی[15] (SGD) و حافظۀ محدود BFGS یا به عبارتی LBFGS هستند. روش استفاده‌شده در این مقاله برای حل مسئلۀ بهینه‌سازی ارائه‌شده در رابطه (9) استفاده از روش نزول شیب تصادفی همراه با پیاده‌سازی روش LBFGS روی دسته‌های بسیار کوچک (Mini-batches) است.

 

1-3-2- نزول شیب تصادفی

همان‌طور که گفته شد روش نزول شیب تصادفی [14] یکی از روش‌های مرسوم برای حل مسائل یادگیری ماشین است. در این روش در هر تکرار، یک اندیس مانند j به‌طور تصادفی از  انتخاب می‌شود و وزن‌هایش به شکل زیر به‌روزرسانی می‌شوند [13]:

(10)

 

 

بیان‌کنندۀ گرادیان  است و  بیان‌کنندۀ نرخ یادگیری است. به دلایل بسیاری، روش نزول شیب تصادفی، روشی جذاب در مباحث یادگیری ماشین است. اول آنکه این روش افزونگی مطرح‌شده در داده‌ها را به ‌کار می‌گیرد و دوم آنکه پیچیدگی تکرارها مستقل از N (تعداد مشاهدات موجود در مجموعه داده آموزش) است؛ برخلاف الگوریتم‌های بهینه‌سازی کلاسیک که به N بستگی دارند و در هنگام تلاش برای بهره‌برداری از تقریب‌های تصادفی ساده‌تر شیب، ناپایدار می‌شوند [15،16]. همچنین این الگوریتم نظریۀ همگرایی جذابی دارد [17،18]. سوم آنکه الگوریتم نزول شیب تصادفی به‌آسانی به یک محیط یادگیری آنلاین پاسخ می‌دهد (یعنی داده‌ها به‌صورت ترتیب دردسترس‌اند) که ممکن است در آن مشاهدات موجود در داده‌ها هرگز تکرار نشوند [19]. مزیت چهارم در تنظیمات غیر محدب این الگوریتم است. ماهیت تصادفی این روش نسبت به روش‌های غیرتصادفی کمتر باعث می‌شود پاسخ نهایی به مینیمم‌های محلی همگرا شود [20،21].

 

2-3-2- الگوریتم LBFGS

الگوریتم LBFGS یکی از پرکاربردترین الگوریتم‌های کلاسیک در مباحث یادگیری ماشین است که جزو الگوریتم‌های شبه - نیوتون[16] با حافظۀ محدود محسوب می‌شود. این الگوریتم مانند الگوریتم نزول شیب تصادفی فقط به گرادیان مرتبه اول نیاز دارد. روش‌های شبه - نیوتون تکرارهایی را با استفاده از قانون زیر تولید می‌کنند:

(11)

 

(12)

 

 

Bkماتریس شبه - نیوتون است که در هر تکرار با استفاده از گرادیان به‌روز می‌شود و  نرخ یادگیری است. به‌روزرسانی Bk با استفاده از ترتیبی از بردارها انجام می‌شود که به‌صورت زیر تعریف می‌شوند:

(13)

 

(14)

 

 

به‌روزرسانی به روش برویدن[17] با استفاده از پارامتر  تعریف می‌شود که به‌طور وسیعی برای به‌روزرسانی Bk استفاده شده است:

(15)

 

(16)

 

 

در عمل B0 یک اسکالر مثبت در نظر گرفته می‌شود. در بهینه‌سازی در مقیاس بزرگ، روش‌های شبه - نیوتون با حافظۀ محدود برای محدودکردن نیازهای ذخیره‌سازی و ارتقای بهره‌وری استفاده می‌شوند. در اینجا تنها r جفت آخر محاسبه‌شده از  برای محاسبه Bk+1 استفاده می‌شود؛ بدین معنی که فقط به‌روزترین اطلاعات برای ساختن ماتریس هسیان استفاده می‌شوند. مقدار عددی r معمولاً بسیار کوچک است .

ماتریس‌های دنباله  متقارن ساخته می‌شوند و این درحالی است که انتخاب مقادیر متفاوت برای  به تولید دنباله‌ای از ماتریس‌ها با مشخصات متفاوت منجر خواهد شد. معروف‌ترین عضو از مجموعه به‌روزرسانی برویدن، به‌روزرسانی (BFGS) است که با تنظیم مقدار  برابر با صفر حاصل می‌شود. B0 به‌دست‌آمده با این روش، مثبت معین است و نامساوی  برای  برقرار است؛ درنتیجه به‌روزرسانی BFGS دنباله‌ای از ماتریس‌های مثبت معین را تولید می‌کند. شرط  می‌تواند به استفاده از جستجوی خطی ولف[18] برای محاسبه  در رابطه (10) منجر شود.

یکی از دلایلی که به‌روزرسانی BFGS را به به‌روزرسانی ارجح تبدیل می‌کند، این است که این روش، یک روش کارآمد برای حل سیستم‌های خطی با Bk است و محاسبه pk در رابطه (11) را ممکن می‌کند [22]. روش LBFGS مزایای بسیاری دارد. اول آنکه محاسبه  ازطریق یک محیط برنامه‌نویسی موازی ممکن می‌شود. دوم آنکه تعداد اندکی از هایپر - پارامترها وجود دارند که کاربر آنها را تنظیم می‌کند؛ مانند تعداد وزن‌ها و مقیاس‌دهی‌ ماتریس اولیه B0 و مقداردهی اولیۀ استانداردی که در بهینه‌سازی استفاده می‌شوند؛ به این معنا که در روش LBFGS نیازی به تنظیم دستی پارامترها نیست.

 

4-2- داده‌ها

در این مقاله برای اجرای روش پیشنهادی و مقایسه با سایر روش‌های پیش‌بینی، نسخه دوم مجموعه داده‌های AMPds استفاده شده است [23]. در این مجموعه داده، جریان‌های الکتریکی (برحسب آمپر) و توان مصرفی (برحسب کیلووات - ساعت) یک خانه در کانادا به‌صورت دقیقه‌ای براید و سال کامل ثبت شده‌اند.

با توجه به نظارت شده بودن روش پیشنهادی در این مقاله، نیاز است تا ماتریس ورودی و بردار شامل خروجی‌های مطلوب برای محاسبۀ وزن‌های رگرسیون تعیین شوند. در این مقاله از داده‌های جریان‌های اندازه‌گیری‌شده به‌عنوان ورودی برای پیش‌بینی مصرف برق استفاده شده است. خروجی مطلوب در این کار، مجموع توان‌های مصرفی محاسبه‌شده برای خانۀ مدنظر است. ماتریس‌های ورودی و خروجی به‌صورت نیم‌ساعته مرتب شده‌اند تا بتوان توان مصرفی را در بازه‌های نیم‌ساعته پیش‌بینی کرد. شکل (1) دیاگرام داده‌های استفاده‌شده در این مقاله را نمایش می‌دهد.

 

شکل (1): دیاگرام داده‌های استفاده‌شده در این مطالعه

 

داده‌های ورودی، جریان‌های اندازه‌گیری‌شده از بخش‌های مختلف خانه و وسایل برق آن شامل سوئیت اجاره (RSE)، گاراژ (GRE)، بخش اصلی خانه (MHE)، اتاق خواب شمالی (B1E)، پریزهای زیرزمین و روشنایی (BME)، ماشین لباسشویی (CWE)، ماشین ظرفشویی (DWE)، تجهیزات امنیتی (شبکه) (EQE)، پنکه و ترموستات کوره HVAC (FRE)، پمپ حرارتی (HPE)، دفتر کار در خانه (OFE)، اتاق تجهیزات (UTE)، فر دیواری (WOE)، اتاق خواب مستر (جنوبی) (B2E)، خشک‌کن لباس (CDE)، ناهارخوری (DNE)، میز کار الکترونیک (EBE)، یخچال (FGE)، واحد آب گرم فوری (HTE)، پریز‌های بیرون خانه (OUE)، اتاق تلویزیون (TVE) و باقیمانده مصارف اندازه‌گیری‌شده با کنتور کلی (UNE) هستند.

 

5-2- ارزیابی دقت پیش‌بینی

برای محاسبۀ دقت پیش‌بینی انجام‌شده، راههای مختلفی وجود دارد. ارزیابی پیش‌بینی‌ها در این مقاله به کمک سه شاخص میانگین مربعات خطا[19] (MSE)، جذر میانگین مربعات خطا[20] (RMSE) و میانگین مطلق درصد خطا[21] (MAPE) انجام می‌شود. این شاخص‌ها بارها در پژوهش‌‌های مختلف استفاده شده‌اند و معیاری برای مقایسۀ نتایج به‌دست‌آمده با استفاده از روش‌های مختلف‌اند. شاخص‌های میانگین مربعات خطا و جذر میانگین مربعات خطا با استفاده از روابط زیر محاسبه می‌شوند:

(16)

 

(17)

 

 

شاخص میانگین مطلق درصد خطا نیز به‌صورت زیر تعریف می‌شود:

(18)

 

 

در روابط (16) تا (18)،  مقدار واقعی بار و  مقدار پیش‌بینی‌شده و n تعداد پیش‌بینی‌های انجام‌شده است.

 

6-2- روش‌های مقایسه

برای انجام مقایسه بین روش پیشنهادی در این مقاله با روش‌های دیگر، شش روش در نظر گرفته شده‌ است. این روش‌ها عبارت‌اند از: رگرسیون خطی چندگانه، رگرسیون مقاوم، درخت تصمیم‌گیری، درخت تصمیم‌گیری تقویت‌شده، جنگل تصادفی و ماشین بردار پشتیبان. ‌دربارۀ مدل رگرسیون خطی در بخش (2-1) بحث شد. رگرسیون مقاوم در اینجا رگرسیون خطی چندگانه است که فاکتور قطع[22] به آن اضافه شده است. به دلیل اینکه حل مسائل رگرسیون با استفاده از روش‌های درختی معمولاً نتایج خوبی ارائه می‌دهند، این روش‌ها نیز برای انجام مقایسه انتخاب شده‌اند. روش‌های درختی مبتنی بر طبقه‌بندی یا تقسیم‌بندی فضای پیش‌بینی‌کننده به تعداد منطقه ساده‌تر است. به‌منظور پیش‌بینی یک مشاهدۀ خاص، معمولاً از میانگین پاسخ‌های پیش‌بینی‌شده استفاده می‌شود. با توجه به اینکه مجموعه‌ای از قوانین تقسیم‌بندی برای تقسیم فضای پیش‌بینی‌کننده‌ها در یک درخت خلاصه می‌شوند، این نوع روش‌ها روش درخت تصمیم شناخته می‌شوند. در این مقاله، سه روش درخت تصمیم‌گیری، درخت تصمیم‌گیری تقویت‌شده و جنگل تصادفی از مجموعه روش‌های یادگیری درختی برای انجام مقایسه استفاده شده‌اند.

روش دیگر به‌ کار گرفته شده برای مقایسه، رگرسیون ماشین بردار پشتیبان است. ماشین بردار پشتیبان، روشی مبتنی بر استفاده از تابع کرنل است. حل مسئلۀ رگرسیون به روش رگرسیون ماشین بردار پشتیبان شامل حداقل‌کردن تابع هدفی شامل خطاهای پیش‌بینی در هر مرحله است. برای تکمیل مقایسۀ نتایج، نتایج روش پیشنهادی با روش مرجع [24] نیز مقایسه خواهند شد.

 

3- نتایج شبیه‌سازی

شبیه‌سازی در دو بخش و ازطریق کد‌نویسی در محیط نرم‌افزار متلب 2019 در سیستمی با پردازشگر core i5-8250U، رم 8 گیگابایتی و در محیط ویندوز 10 انجام شده است. این دو بخش عبارت‌اند از: آموزش و آزمایش. در بخش آموزش، ضرایب رگرسیون پیش‌بینی می‌شوند و اعتبارسنجی با استفاده از روش اعتبارسنجی k-فولد، در بخش آزمایش از داده‏های جدید پیش‏بینی‏های نیم‏‌ساعته تولید می‏شوند. اعتبارسنجی از مدل‌ها در بخش آموزش و ازطریق اعتبارسنجی 10-فولد[23] انجام می‌شود. برای ارزیابی روش پیشنهادی، نتایج به‌دست‌آمده با استفاده از روش پیشنهادی با نتایج شش روش دیگر مقایسه می‌شوند.

با توجه به بخش داده‌ها، مجموعه داده‌های AMPds2 برای پیاده‌سازی روش ارائه‌شده در این مقاله استفاده شده است. در این مقاله 60 درصد از داده‌ها برای آموزش مدل‌ها (تخمین ضرایب) و 40 درصد باقی‌مانده به دو بخش تقسیم‌ شده و برای انجام پیش‌بینی میان‌مدت استفاده شده است. نتایج استفاده از روش پیشنهادی در این مقاله برای یافتن ضرایب رگرسیون برای 1000 تکرار در شکل (2) نمایش داده شده‌اند. محور عمودی در این نمودار نشان‌دهندۀ میانگین مربعات خطا است. بهترین مقدار میانگین مربعات خطای به‌دست‌آمده با استفاده از روش پیشنهادی در تکرار 173 به‌ دست آمده که مقدار آن برابر بار kWh 12/73 است. شکل (3) ضرایب به‌دست‌آمده برای ویژگی‌ها [ستون‌های ماتریس داده‌های ورودی مطابق با شکل (1)] و شکل (4) باقیمانده پیش‌بینی‌ها در مرحلۀ آموزش را نمایش می‌دهد. نتایج آموزش به روش پیشنهادی در این مقاله و روش‌های مقایسه در جدول (1) نمایش داده شده‌اند. با توجه به جدول (1)، نتایج ارائه‌شده در مرحلۀ آموزش نشان‌دهندۀ سرعت پایین‌تر روش پیشنهادی در مرحلۀ آموزش است. میانگین مطلق درصد خطای به‌دست‌آمده نسبت به روش جنگل تصادفی 3164/2 درصد پایین‌تر است که دقت بالاتر روش پیشنهادی را نشان ‌می‌دهد.

در مرحلۀ بعد با استفاده از هر یک از مجموعه داده‌های آزمایش، پیش‌بینی میان‌مدت انجام می‌شود. هر یک از مجموعه‌های آزمایش شامل 146 روز است که پیش‌بینی بار در بازه‌های نیم‌‌ساعته را ممکن می‌سازد. نتایج پیش‌بینی برای هر یک از زیرمجموعه‌ داده‌های آموزش در شکل‌های (5) تا (8) و جدول‌های (2) و (3) نمایش داده شده‌اند.

 

 

شکل (2): روند یافتن ضرایب رگرسیون با استفاده از روش پیشنهادی در 1000 تکرار

 

شکل (3): ضرایب رگرسیون به‌دست‌آمده با استفاده از روش پیشنهادی

 

شکل‌های (5) و (7) نتایج پیش‌بینی با استفاده از روش پیشنهادی و روش‌های مقایسه و شکل‌های (6) و (8) باقیماندۀ پیش‌بینی‌های انجام‌شده را نشان می‌دهند که تفاضل مقادیر مشاهده‌شده و پیش‌بینی‌شده از توان مصرفی‌اند. در شکل‌های (4) الی (8)، هر یک نتایج به‌دست‌آمده از بخش‌های روی محور افقی با استفاده از روش پیشنهادی و روش‌های مقایسه در بازه‌های زمانی نیم‌ساعته برای کل دوره پیش‌بینی نشان داده شده‌اند. همان‌طور که دیده می‌شود روش پیشنهادی، خطای کمتری نسبت به سایر روش‌های مقایسه‌شده دارد.

 

 

جدول (1): نتایج آموزش مدل‌های پیش‌بینی

روش

MSE (kWh)

RMSE (kWh)

MAPE (%)

زمان پیش‌بینی (s)

رگرسیون خطی

13542

37/116

6757/4

385/8

رگرسیون مقاوم

14206

19/119

3941/4

397/7

درخت تصمیم‌گیری

8/7612

251/87

4154/2

4

درخت تصمیم‌گیری تقویت شده

32426

07/180

5572/5

646/6

جنگل تصادفی

17126

87/130

8684/2

379/10

ماشین بردار پشتیبان

110200

96/331

5182/4

82

روش پیشنهادی

12/328

114/18

5027/0

6/75

 

 

 

شکل (4): باقیماندۀ پیش‌بینی‌ها در مرحلۀ آموزش

 

 

شکل (5): نتایج پیش‌بینی با استفاده از مجموعه آزمایش اول

 

 

شکل (6): باقیماندۀ پیش‌بینی‌ها با استفاده از مجموعه آزمایش اول

 

 

شکل (7): نتایج پیش‌بینی با استفاده از مجموعه آزمایش دوم

 

نتایج ارائه‌شده در جدول‌ (2) نیز ثابت می‌کنند استفاده از روش ارائه‌شده که مبتنی بر استخراج ویژگی به روش تحلیل اجزای مجاور و حل مسئلۀ رگرسیون است، روشی مناسب و دارای خطای اندک برای پیش‌بینی بار خانگی است.

 

 

شکل (8): باقیماندۀ پیش‌بینی‌ها با استفاده از مجموعه آزمایش دوم

 

 

شکل (9): نتایج خطای MAPE بر حسب درصد

جدول (2): نتایج آزمایش با استفاده از مجموعه آزمایش 1

روش

MSE (kWh)

RMSE (kWh)

MAPE (%)

زمان پیش‌بینی

رگرسیون خطی

16680

15/129

7216/4

023/0

رگرسیون مقاوم

17491

25/132

4261/4

023/0

درخت تصمیم‌گیری

39401

5/198

658/3

010/0

درخت تصمیم‌گیری تقویت شده

40402

201

806/5

036/0

جنگل تصادفی

28342

35/168

278/3

075/0

ماشین بردار پشتیبان

31479

42/177

710/4

316/0

روش پیشنهادی

28299

17/166

274/3

483/2

 

جدول (3): نتایج آزمایش با استفاده از مجموعه آزمایش 2

روش

MSE (kWh)

RMSE (kWh)

MAPE (%)

زمان پیش‌بینی

رگرسیون خطی

69369

38/263

762/4

0187/0

رگرسیون مقاوم

72402

08/269

446/4

021/0

درخت تصمیم‌گیری

46610

89/215

683/3

014/0

درخت تصمیم‌گیری تقویت شده

48518

27/220

770/5

036/0

جنگل تصادفی

27619

19/166

323/3

071/0

ماشین بردار پشتیبان

30380

3/174

681/4

313/0

روش پیشنهادی

20652

71/143

229/3

006/0

 

نتایج حاصل از این روش با اختلاف کمی بهتر از روش رگرسیون جنگل تصادفی‌اند که روشی با خطای بسیار پایین است. بررسی شاخص جذر میانگین مربعات خطا در پیش‌بینی مجموعه آزمایش دوم نیز ثابت می‌کند روش پیشنهادی برای پیش‌بینی بار خانگی به مقدار 48/22 کیلووات ساعت نتیجۀ بهتری از روش درخت تصمیم‌گیری ارائه داده است. شکل (9) نتایج خطای MAPE محاسبه‌شده برای هر یک از روش‌های مقایسه را در مراحل آموزش و آزمایش نمایش می‌دهد. همان‌طور که در این شکل مشاهده می‌شود روش پیشنهادی در این مقاله خطای کمتر را نسبت به روش‌های مقایسه ارائه می‌دهد.

برای مقایسۀ نتایج به‌دست‌آمده با سایر کارهای انجام‌شده در زمینۀ پیش‌بینی بار خانگی، نتایج پیش‌‌بینی برای یک روز با نتایج مرجع [24] مقایسه شده‌اند. در این مرجع نیز مانند این مقاله از داده‌های AMPds برای شبیه‌سازی استفاده شده است و داده‌ها به‌طور مشابه به بازه‌های 30 دقیقه‌ای تقسیم شده‌اند. تنها تفاوت داده‌های استفاده‌شده در مرجع مذکور با مطالعۀ انجام‌شده در این مقاله در تعداد داده‌های در نظر گرفته شده است؛ به این ترتیب که داده‌های ماشین لباس‌شویی، ماشین ظرف‌شویی، پمپ حرارتی، فر دیواری (WOE)، خشک‌کن لباس (CDE) و اتاق تلویزیون (TVE) برای آموزش آزمایش مدل‌های پیش‌بینی استفاده شده‌اند. باید توجه داشت در مرجع [24] پیش‌بینی کوتاه‌مدت انجام شده است؛ به همین دلیل، نتایج پیش‌بینی برای روز 15 مارس 2013 با نتایج به‌دست‌آمده با استفاده از شبکۀ عصبی LSTM پیشنهادشده در مرجع [24] مقایسه شده‌‌اند. شکل (10) نتایج پیش‌بینی برای روز 15 مارس 2013 را با استفاده از روش پیشنهادی در این مقاله و روش ارائه‌شده در مرجع [24] و جدول (4) خطای محاسبه‌شده برای این روز نمایش می‌دهند.

 

 

شکل (10): پیش‌بینی بار خانگی برای روز 15 مارس 2013

 

جدول (4): نتایج پیش‌بینی روز - پیش

 

MSE (kWh)

RMSE (kWh)

MAPE (%)

LSTM

49425

32/222

8866/9

روش پیشنهادی

11065

19/105

3912/3

 

نتایج ارائه‌شده نشان می‌دهند خطای به‌دست‌آمده با استفاده از روش پیشنهادی در این مقاله پایین‌تر از خطای به‌دست‌آمده با استفاده از روش ارائه‌شده در مرجع [24] است که نشان می‌دهد روش پیشنهادی روش کارآمدی برای پیش‌بینی بار خانگی است.

 

4- نتیجه‌گیری

پیش‌بینی میان‌مدت بار در مناطق مسکونی نقش مهمی در مدیریت و برنامه‌ریزی شبکه‌های هوشمند مدرن دارد. در برنامه‌ریزی برای متعادل نگه‌ داشتن تولید و مصرف، لازم است تا پیش‌بینی دقیقی از بار مناطق مسکونی انجام شود. در این مقاله، روشی به‌منظور پیش‌بینی میان‌مدت بار مسکونی با استفاده از انتخاب ویژگی‌ها به روش تحلیل اجزای مجاور برای حل مسئلۀ رگرسیون ارائه شده است. این روش مبتنی بر قانون نزدیک‌ترین همسایه است که در آن یک مسئلۀ بهینه‌سازی مطرح شده است که استخراج ویژگی و تعیین وزن‌های مسئلۀ رگرسیون خطی را در خود جای می‌دهد. اساس این روش، انتخاب وز‌ن‌هایی برای هر یک از ستون‌های ماتریس ویژگی‌ها است که در آن ویژگی‌های کم‌‌اهمیت، وزن‌های کمتری را در مسئلۀ رگرسیون به خود اختصاص می‌دهند. روش پیشنهادی برای حل مسئلۀ بهینه‌سازی مطرح‌شده، استفاده از الگوریتم LBFGS است که در حل مسائل یادگیری ماشین با ابعاد بزرگ استفاده می‌شود. برای اجرای روش ارائه‌شده، مجموعه داده‌های AMPds2 استفاده شده است. نتایج به‌دست‌آمده با استفاده از روش پیشنهادی با نتایج شش روش دیگر شامل رگرسیون خطی، رگرسیون خطی قوی، درخت تصمیم‌گیری، درخت تصمیم‌گیری تقویت‌شده، جنگل تصادفی و ماشین بردار پشتیبان مقایسه شده‌اند. شاخص‌های MSE (kWh)، RMSE (kWh)، MAPE (%) به‌منظور مقایسۀ نتایج به‌دست‌آمده استفاده شده‌اند. نتایج محاسبۀ خطای MAPE که نشان‌دهندۀ درصد متوسط خطا در کل طول بازۀ پیش‌بینی است، نشان‌دهندۀ کارآیی روش پیشنهادی در پیش‌بینی بار خانگی است.



[1] تاریخ ارسال مقاله: 28/10/1398

تاریخ پذیرش مقاله: 01/09/1399

نام نویسندۀ مسئول: غضنفر شاهقلیان

نشانی نویسندۀ مسئول: ایران، نجف‌آباد، دانشگاه آزاد اسلامی، واحد نجف‌آباد، دانشکده مهندسی برق



1 Long-Short-Term Memory

2 Neighborhood Component Analysis

3 Limited Memory Broyden-Fletcher-Goldfarb-Shanno

4 Almanac of Minutely Power Dataset

5 Data Mining

6 Machine Learning

7 Filter

8 Wrapper

9 Embedded

10 Chi-square

11 Gradient Descent

12 Nearest Neighbor

13 Support Vector Machines

14 Empirical Risk

15 Stochastic Gradient Descent

16 Quasi-Newton

17 Broyden

18 Wolf Line Search

19 Mean Squared Error

20 Root Mean Squared Error

21 Mean Absolute Percentage Error

22 Interception Factor

23 Fold Cross-Validation

[1] N. Nazeri, M. Moazzami, G. Shahgholian, “A hybrid approach for mid-term electricity price forecasting based on support vector machine and neural networks”, Computational Intelligence in Electrical Engineering, Vol. 9, No. 2, pp. 41-54, Summer 2018 (Persian).
[2] H. Shayeghi, A. Ghasemi, “Modeling of multi input multi output based LSSVM for electricity price and load forecasting in smart grid with considering demand side management”, Computational Intelligence in Electrical Engineering, Vol. 6, No. 4, pp. 87-106, Winter 2016 (Persian).
[3] M. Chaouch, "Clustering-based improvement of nonparametric functional time series forecasting: Application to intra-day household-level load curves", IEEE Trans. on Smart Grid, Vol. 5, pp. 411-419, 2014.
[4] M. Ghofrani, M. Hassanzadeh, M. Etezadi-Amoli, M. S. Fadali, "Smart meter based short-term load forecasting for residential customers", Proceeding of the IEEE/NAPS, pp. 1-5, Boston, MA, USA, Aug.2011.
[5] S. Humeau, T. K. Wijaya, M. Vasirani, K. Aberer, "Electricity load forecasting for residential cust­om­e­rs: Exploiting aggregation and correlation between households ", 2013 Sustainable Internet and ICT for Sustainability (SustainIT), 30-31 Oct. 2013.
[6] B. Asare-Bediako, W. L. Kling, P. F. Ribeiro, "Day-ahead residential load forecasting with artificial neural networks using smart meter data", Proceeding of the IEEE/PTC, pp. 1-6, Grenoble, France, June 2013.
[7] T. Hossen, A. S. Nair, R. A. Chinnathambi, P. Ranganathan, "Residential load forecasting using deep neural networks (DNN)", Proceeding of the IEEE/NAPS, pp. 1-5, Fargo, ND, USA, Sept. 2018.
[8] W. Kong, Z. Yang Dong, Y. Jia, D. J. Hill, Y. Xu, Y. Zhang, "Short-term residential load forecasting based on lstm recurrent neural network", IEEE Trans. on Smart Grid, Vol. 10, No. 1, pp. 841 – 851, Jan. 2019.
[9] H. Liu, E. Dougherty, J. Dy, K. Torkkola, E. Tuv, H. Peng, C. Ding, F. Long, M. Berens, L. Parsons et al., "Evolving feature selection", IEEE Intelli­gent Systems, Vol. 20, No. 6, pp. 46–76, 2005.
[10] I. Guyon, S. Gunn, M. Nikravesh, and L. Zadeh, "Feature extraction: Foundations and appli­cations", Springer-Verlag, 2006.
[11] G. James, D. Witten, T. Hastie, R. Tibshirani, "An introduction to statistical learning with applications in R", Springer, 2013.
[12] Yang, W., K. Wang, W. Zuo. "Neighborhood component feature selection for high-dimensional data", Journal of Computers, Vol. 7, No. 1, Jan. 2012.
[13] J. B. Erway, J. Griffin, R. F. Marcia, R. Omh­­e­n­i, "Trust-region algorithms for training respon­ses: Machine learning methods using inde­fini­te hessian approximations", Cornell University, 23 May 2019, arXiv:1807.00251.
[14] H. Robbins and S. Monro., "A stochastic approximation method", The Annals of Mathem­atical Statistics, Vol. 22, No. 3, pp. 400 407, 1951.
[15] L. Bottou, F. Curtis, J. Nocedal, "Optim­iza­ti­o­n methods for large-scale machine learning", SIAM Review, Vol. 60, No. 2, pp. 223-311, 2018.
[16] R. H. Byrd, S. L. Hansen, J. Nocedal, Y. Si­ng­e­r, "A stochastic quasi-newton method for larg­e-s­cale optimization", SIAM Journal on Optimi­zat­­io­n­, Vol. 26, No. 2, pp. 1008-1031, 2016.
[17] F. Curtis, "A self-correcting variable-metric algo­rithm for stochastic optimization", Proceed- ings of The 33rd International Conference on Machine Learning, pp. 632-641, 2016.
[18] F. E. Curtis, X. Que, "A quasi-newton algor­i­th­­m for nonconvex, nonsmooth optimization with global convergence guarantees”, Mathematical Prog­rammi­ng Computation", Vol. 7, No. 4, pp. 399-428, Dec 2015.
[19] A. Choromanska, M. Hena, M. Mathieu, G. B. Arous, Y. LeCun, "The loss surface of multilayer networks", CoRR, 2014.
[20] I. Guyon, R. Garnett, "Advances in neural information processing systems", Vol. 29, pp. 586-594. Curran Associates, Inc., 2016.
[21] L. Sagun, V. U. Guney, Y. LeCun, "Explo­rati­ons on high dimensional landscapes", Machine Learning, 2014.
[22] J. Nocedal,"Updating quasi-newton matrices with limited storage Math", Mathematics of Comp­­utation, Vol. 35, No. 15, pp. 773-782, July 1980.
[23] S. Makonin, F. Popowich, L. Bartram, B. Gill, I. V. Bajic, "AMPds: A public dataset for load disaggregation and eco-feedback research", Proceeding of the IEEE/EPEC, pp. 1-6,Halifax, NS, Canada, Aug. 2013.
[24] W. Kong, Z. Yang Dong, D. J. Hill, F. Luo, Y. Xu, "Short-term residential load forecasting based on resident behaviour learning", IEEE Trans. on Power System, Vol. 33 , No.1 , pp. 1087-1088, Jan. 2018.