Document Type : Research Article
Authors
1 School of Computer Engineering, Islamic Azad University - Science and Research Branch, Kerman - Iran
2 Department of Computer Engineering - Martyr Bahonar University - Kerman – Iran
Abstract
Keywords
«ویژگی» و یا « موجودیت» و یا «متغیر» به جنبه ای از دادهها اشاره می کند. معمولاً قبل از جمع آوری دادهها، ویژگیها مشخص یا انتخاب شده اند. ویژگیها میتوانند گسسته، پیوسته، یا اسمی باشند به طور کلی، ویژگیها به صورت زیر وصف میشوند: مربوط: ویژگیهایی وجود دارند که بر خروجی تأثیر دارند و نقش آنها با بقیه نمیتواند در نظر گرفته شود.
نامربوط: ویژگیهای نامربوط به عنوان ویژگیهایی تعریف می شوند که بر خروجی تأثیری ندارند، و مقادیری که برای هر مثال تولید می شوند، تصادفی هستند.
زائد: افزونگی وجود دارد، هر زمان که یک ویژگی بتواند نقش دیگری داشته باشد(شاید ساده ترین راه برای مدل افزونگی).
انتخاب ویژگی نقش مهمی را در تعدادی از وظایف یادگیری ماشین و تشخیص الگو بازی می کند]1[. بسیاری از ویژگیهای کاندید معمولاً با یک الگوریتم یادگیری برای تولید خصوصیات کامل عمل کلاس بندی تهیه می شوند. با این حال، در اغلب موارد بسیاری از ویژگیهای کاندید برای کار یادگیری، نامربوط یا زائد هستند، و کارایی به کارگیری الگوریتم یادگیری را خرابتر خواهند کرد و به مشکل برازش[1] منجر میشوند. دقت یادگیری و سرعت آموزش ممکن است به میزان درخور توجهی با این ویژگیهای زائد بدتر شود ]2-4[. بنابراین، انتخاب ویژگیهای مرتبط و ضروری در مرحله پیش پردازش از اهمیتی بنیادین برخوردار است.
بعضی از روشها برای انتخاب ویژگی در دهه گذشته توسعه داده شده اند ]5[. موضوع اصلی در ساخت الگوریتمهای انتخاب ویژگی ارزیابی کیفیت ویژگیهای کاندید است ]6و7[. مسأله انتخاب ویژگی می تواند به عنوان یک مسأله بهینه سازی چند – هدفه فرموله سازی شده باشد. با وجود وسعت تحقیق در حوزه انتخاب ویژگی، بهترین مجموعه از اهداف یا معیارها برای تعریف راه حل بهینه وجود ندارد. بنابراین، جستجو برای معیارهای کلی به طور مؤثر کانون توجه تحقیقات حاضر است. گذشته از این، ما نیاز داریم روشهای انتخاب ویژگی را با استفاده از دو معیار مختلف تعریف کنیم: حداکثر رساندن دقت روش و حداقل رساندن تعداد ویژگیهای که استفاده می شوند ]8 و9[، و یک فرمول سازی چند – شاخصه از مسأله انتخاب ویژگی ارائه شود.
انتخاب ویژگی، فرایند انتخاب بهترین ویژگی از میان تمام ویژگیهاست، زیرا تمام ویژگیها در ساخت خوشهها مفید نیستند: بعضی از ویژگیها ممکن است زائد یا نامربوط باشند بنابراین، برای فرایند یادگیری مؤثر نیستند ]10[. انتخاب ویژگی(همچنین به عنوان انتخاب زیرمجموعه شناخته می شوند) فرایندی است که معمولاً در یادگیری ماشین استفاده می شود، در جایی که یک زیر مجموعه از ویژگیهای در دسترس از دادهها برای کاربرد یک الگوریتم یادگیری انتخاب شده است. بهترین زیرمجموعه شامل حداقل تعداد ابعاد است که بیشترین مشارکت را در دقیق سازی دارد. ما ابعاد باقیمانده و بی اهمیت را نادیده می گیریم. هدف اصلی انتخاب ویژگی، تعیین زیرمجموعه ویژگی مینیمال از دامنه مسأله با حفظ دقت بالا بطور، مناسب در ارائه ویژگیهای اصلی است ]11[. این مقاله یک روش جدید انتخاب ویژگی مبتنی برمنطق فازی برای یادگیری ماشین ارائه می کند که از یک رویکرد فازی بر روی روشهای قبلی استفاده می کند. این روش جدید، روش انتخاب ویژگی مبتنی بر منطق فازی (FSFL[2]) نامیده میشود. این روش ساده است، سریع اجرا می شود و به آسانی برای مسائل کلاس پیوسته با به کارگیری معیارهای تشابه مناسب توسعه داده می شود. این روش، تعداد ویژگیهای انتخابی را به عنوان ورودی یک عدد فازی در نظر می گیرد و قابلیت ویژگیها را پس از فازی زدایی با استفاده از الگوریتم ژنتیک بهینه می کند و تعداد ویژگیهای مورد نظر را انتخاب می نماید. بخش بعدی روشهای انتخاب ویژگی را توصیف می کند. بخش 3، منطق فازی را توصیف می کند. بخش 4، روش پیشنهادی را شرح میدهد. بخش 5، الگوریتم ژنتیک ونحوه استفاده از آن را در این روش توضیح می دهد. بخش 6، آزمایشها و نتایج حاصل از روش پیشنهادی را بیان می کند و بخش آخر، خلاصه و نتیجه گیری را بیان می کند.
2- روشهای انتخاب ویژگی
2–1– طبقه بندی روشهای انتخاب ویژگی
به منظور ارزیابی ویژگیهای انتخاب شده، خصوصیاتی از دادهها، مفهوم هدف و الگوریتم یادگیری باید در نظر گرفته شود. براساس این اطلاعات، روشهای انتخاب ویژگی به سه نوع دسته بندی می شوند: روشهای فیلتر[3]، روشهای پنهان[4] و روشهای جاسازی شده[5]. برای بررسی خوب روشهای موجود برای انتخاب ویژگی، خوانندگان می توانند به ]12و13[ مراجعه کنند. روش فیلتر، سادهترین و رایجترین روش مورد استفاده در نوشتههاست. این روش شامل الگوریتمهای رتبه بندی ویژگی ]14[ و الگوریتمهای جستجوی زیرمجموعه ]15[ می باشد. برای روشهای فیلتر، ویژگیها با توجه به دلایل قدرت پیش بینی را نشان می دهند و سپس رتبه بندی میکنند و دارای خصوصیات زیر هستند: 1. ویژگیها مستقل در نظر گرفته می شوند؛ 2. ویژگیهای زائد ممکن است در نظر گرفته شوند؛ 3. بعضی از ویژگیها به عنوان یک گروه قدرت تبعیض بالایی دارند، اما ضعیف هستند، به همین جهت، به عنوان ویژگیهای منحصر به فرد نادیده گرفته خواهند شد؛ 4. رویه فیلتر مستقل از روش کلاس بندی است.
روشهای پنهان از روشهای تکراری استفاده می کنند. بسیاری از «زیر مجموعههای ویژگی» براساس عملکرد کلاس بندی امتیازدهی میشوند و بهترین استفاده را دارند. رویکردهای انتخاب زیرمحموعه شامل انتخاب رو به به جلو، انتخاب رو به عقب، ترکیب آنهاست ]16[. این روش دارای خصوصیات زیر است: 1. از نظر محاسباتی برای هر زیرمجوعه ویژگی در نظر گرفته شده که طبقه بند ساخته شده و ارزیابی شود، گران است. 2. جستجوی جامع غیر ممکن است، تنها جستجوی حریصانه اعمال می شود. استفاده از جستجوی حریصانه ساده است و به سرعت راه حلها را پیدا می کند، اما عیب آن این است که بهینه نیست و نسبت به شروعهای نادرست حساس است. 3. در اغلب موارد در این روشها برای برازش کردن آسان است. و سرانجام در روشهای جاسازی شده، فرآیند انتخاب ویژگی در درون خود الگوریتمهای استقرایی انجام میشود؛ یعنی تلاش تا به طور مشترک یا همزمان هر دوی طبقه بند و زیرمجموعه ویژگی آموزش داده شوند. آنها معمولاً یک تابع هدف را بهینه سازی میکنند که به طور مشترک دقت کلاس بندی را امتیاز می دهد و استفاده از ویژگیهای بیشتر را جریمه می کند. به هر حال، روشهای فیلتر و پنهان یک سطح انتزاعی درباره روش جاسازی شده تعیین میکنند، فرآیند انتخاب ویژگی برای مدل نهایی مجزا از انتخاب جاسازی شده با خود الگوریتمهای یادگیری انجام می شود ]17و18[.
2–2– همبستگی مبتنی بر انتخاب ویژگی[6]
در مرکز الگوریتم CFS، هیوریستیکی برای ارزیابی ارزش یا شایستگی یک زیرمجموعه ویژگی وجود دارد. این هیوریستیک سودمندی ویژگیهای منحصر به فرد را برای پیش بینی برچسب کلاس همراه با سطحی از همبستگی متقابل در میان آنها به حساب می آورد. این فرضیه که در آن هیوریستیکی براساس: زیرمجموعه ویژگیهای خوب دارای ویژگیهایی با همبستگی بالا با کلاس هستند، در عین حال با یکدیگر ناهمبسته اند.
در آزمون تئوری ]18[، همین اصل است که برای طراحی یک آزمون مرکب(مجموع یا متوسط آزمونهای منحصر به فرد) برای پیش بینی متغیرهای خارجی مورد نظر استفاده می شود. در این وضعیت، ویژگیها، آزمونهای منحصر به فردی هستند که صفات مربوط به متغیر مورد نظر(کلاس) را اندازه می گیرند. معادله (1) ]19[ هیوریستیک را فرمول بندی می کند:
(1) |
که Merits هیوریستیک « شایستگی» یک زیرمجموعه ویژگی S شامل k ویژگی، میانگین همبستگی ویژگی – کلاس، و میانگین همبستگی متقابل ویژگی – ویژگی است. معادله (1)، در واقع، همبستگی Pearson's است، جایی که در آن تمام متغیرها استاندارد شده اند. به صورت کسر می توان به عنوان یک نشانه داده شده فکر کرد که چگونه یک گروه از ویژگیها را پیش بینی می کند و از مخرج کسر این را که چه مقدار افزونگی در میان آنها وجود دارد. هیوریستیک ویژگیهای نامربوط را که به عنوان پیشبینی کنندههای ضعیف از کلاس خواهند بود، کنترل می کند.
2–3– جستجوی فضای زیرمجموعه ویژگیها
استراتژیهای جستجوی اکتشافی مختلفی مانند تپه نوردی و اول بهترین ]19[ در اغلب موارد برای جستجوی فضای زیرمجموعه ویژگیها در مدت زمان قابل قبول به کار برده می شوند. ابتدا ماتریس همبستگی ویژگی – کلاس و ویژگی – ویژگی از مجموعه دادههای آموزشی محاسبه شده و سپس فضای زیرمجموعه ویژگی با استفاده از جستجوی اول – بهترین جستجو می شود. در این مقاله از الگوریتم ژنتیک برای جستجوی فضای زیرمجموعه ویژگی استفاده می شود.
3– منطق فازی
3–1– مجموعههای فازی
یک مجموعه فازی، مجموعه ای است که اجازه میدهد اعضای آن، درجه عضویت متفاوتی در بازه ]1 ,0[ داشته باشند. در منطق کلاسیک، عضویت یک عضو از یک مجموعه با صفر (0) نمایش داده می شود اگر به مجموعه تعلق نداشته باشد؛ با یک (1) نشان داده می شود اگر به مجموعه تعلق داشته باشد. یعنی به صورت مجموعه }0,1} نشان داده می شود، ولی در منطق فازی این مجموعه به صورت بازه ]1 ,0[ توسعه داده شده است ]20و 21[. یک مجموعه فازی توسعه ای از مجموعه کلاسیک است. اگر X، جهان مورد بحث باشد و اعضای آن با x نشان داده شوند، آنگاه مجموعه فازی A از X با زوج مرتب با رابطه (2) تعریف می شود: μA(x) تابع عضویت، x در A است.
(2)
اعداد فازی روشی برای توصیف عدم دقت و ابهام داده هستند. یک عدد فازی در مفهوم توسعه ای از یک عدد منظم است که به یک مقدار منفرد اشاره نمیکند، اما تا حدودی با مجموعه مقادیر ممکن ارتباط برقرار می کند. این مقدار برای خودش یک وزن بین '0' و '1' دارد. این وزن تابع عضویت[7] نامیده می شود ]22[. یک عدد فازی میتواند یکی از سه نوع زیر باشد:
1) عدد فازی مثلثی؛ 2) عدد فازی ذوزنقه ای؛ 3) عدد فازی به شکل بِل، که در شکل (1)، نشان داده شده اند.
شکل (1): توابع عضویت.
روشهای مختلفی برای شکل MFها وجود دارد. در این مقاله، فقط عدد فازی مثلثی را برای روش پیشنهادی در انتخاب ویژگی بیان می کنیم. عدد فازی مثلثی متقارن و نامتقارن با تابع عضویت زیر در شکلهای (2) و (3) نشان داده شده است. با استفاده از کران پایین a و کران بالا b و مقدار میانی m تعریف می شود، که a < m < b است. مقدار b – m را حاشیه می نامند وقتی که با مقدار m – a مساوی باشد. عدد فازی مثلثی در معادله ی (3) آمده است.
(3)
شکل (2): عدد فازی مثلثی متقارن.
شکل (3): عدد فازی مثلثی نامتقارن.
3–3– فازی کردن[8]
فازی کردن تابع عضویت مثلثی(عدد فازی مثلثی[9]) A(x)=TFN(α, m, β) با استفاده از معادله ی (4) تعریف می شود ]23[:
(4)
3–4– اصل توسعه[10]
اصل توسعه یک مفهوم اساسی تئوری مجموعههای فازی است که یک رویه کلی برای گسترش دامنههای قطعی عبارات ریاضی به دامنههای فازی فراهم میکند. این رویه نگاشت نقطه به نقطه متداول تابع f(.) را به نگاشت بین مجموعههای فازی تعمیم میدهد. به طور خاص، فرض کنید f یک تابع از X به Y و A یک مجموعه فازی بر روی X با معادله (5) تعریف شده باشد:
(5) |
سپس اصل توسعه بیان می کند که تصویر مجموعه فازی A تحت نگاشت f(.) می تواند به عنوان مجموعه فازی B با معادله (6) بیان شود:
(6) |
به طور کلی، اصل توسعه در معادله (7) بیان شده است:
(7) |
در حالت کلی، اصل توسعه را از یک فضای n بعدی به یک فضای یک بعدی به صورت زیر تعریف می کنیم: فرض کنید که تابع f یک نگاشت از فضای n بعدی ضرب دکارتزین X1× X2× . . . × Xn به جهان یک بعدی Y به طوری که y=f(x1, x2,…, xn) باشد و فرض کنید A1, A2, . . , An به ترتیب n مجموعه فازی برروی X1, X2, . . ., Xn هستند. آنگاه اصل توسعه اثبات می کند که مجموعه فازی B استنتاج شده توسط نگاشت f با استفاده معادله (8) تعریف می شود]24[.
(8) |
4 – روش پیشنهادی
در این روش از اصل توسعه که در بخش قبلی بیان شد، در معادله (1) استفاده می کنیم. در این حالت T یک عدد فازی است که با تابع عضویت T(k) توصیف می شود که درجه عضویت k را با عدد فازی مثلثی T به صورت زیر بیان می کند:
به عنوان ورودی متغیر ( تعداد ویژگیها k=)یک عدد فازی(مجموعه فازی) است. تابع f که در اصل توسعه توضیح داده شد، در اینجا همان معادله (1) میباشد. بنابراین، تعیین تابع عضویت شایستگی مبتنی بر اصل توسعه است. اصل توسعه در این روش با معادله (9) تعریف شده است.
(9) |
وقتی که T(k) و 𝛍(M)توابع عضویت مربوط به تعداد ویژگیها را مشخص می کنند. اصل توسعه تحت معادله (1) عدد فازی مربوط به k را به عدد فازی مربوط به M با استفاده از معادله (10) نگاشت می کند.
(10) |
معادله (10) می تواند به طور مستقیم برای محاسبه مقدار شایستگی از تعداد ویژگیها استفاده شود. در ادامه نحوه استفاده از معادله (10) در این روش شرح داده میشود.
(1) فازی سازی
در این روش عدد فازی مثلثی T(k) با استفاده از معادله (11) تعریف می شود:
(11) |
مثلث شکل(3) را به نسبت تقسیم می کنیم مطابق با معادله (12): ( )
(12)
|
از (4) و (12) معادلات (13) و (14) نتیجه می شوند:
(13) |
|
(14) |
عدد فازی مثلثی M، با استفاده از معادله (11) و اصل توسعه (معادله (10)) با معادله (15) تعریف میشود:
(15) |
در معادله (15)، مقدار متغیرهای ، و با استفاده از معادلات (16)، (17) و (18) محاسبه می شوند.
(16) |
|
(17) |
|
(18) |
شکل (4)، مقادیر α و β را برای مقادیر مختلف F با استفاده از معادلههای (13) و (14) نشان می دهد.
شکل (4): نمایشی از 𝛍(M) با استفاده از F.
جدول (1)، مقادیری از α و β را برای مقادیر مختلفF=0.1, 0.2, 0.3 و P نشان میدهد، جایی که m تخمینی از تعداد ویژگیهای انتخابی روش پیشنهادی است.
جدول (1): مقادیر α و β برای مقادیر مختلف P و F.
1 |
0.5 |
F P |
0.1 |
||
0.2 |
||
0.3 |
یا می توان m (کنترل تعداد ویژگیها (k)) را با استفاده از معادله (12) به دست آورد. شکل (5)، مقادیر مختلفی از m را با استفاده از معادله (12) نشان می دهد.
شکل (5): نمایشی از 𝛍(M) با استفاده از P.
فرض کنید یک مجموعه داده آموزشی شامل 200 مثال و 99 ویژگی داریم، پس 1=α و 99=β که با تغییر P∈R+ میتوان m را کنترل کرد. جدول (2)، مقادیری از m را برای مقادیر مختلف P از مجموعه داده آموزشی بالا نشان می دهد.
جدول (2): محاسبه مقدار m برای مقادیر مختلف P.
P |
m |
67 |
|
1.5 |
60 |
1 |
50 |
0.5 |
33 |
0.25 |
20 |
در این روش، ما برای اینکه هر دفعه تعداد ویژگیهای متفاوتی را انتخاب کنیم، مرکز عدد فازی مثلثی مربوط به تعداد ویژگیها(k) را تغییر میدهیم تا مقدار شایستگی تغییر کند. سپس برای انتخاب ویژگیهای مورد نظر از الگوریتم ژنتیک استفاده می کنیم. هدف به دست آوردن تعداد ویژگیهای کمتری نسبت به روشهای معمولی است. یا میتوان از دو پارامتر P و F استفاده کرد، m تعداد ویژگیهای انتخابی طوری انتخاب می شوند که α و β به ترتیب کمترین و بیشترین تعداد ویژگی باشند، ولی ما در این روش فقط از معادله (12) یعنی از پارامتر P استفاده کرده ایم.
(2) فازی زدایی
اکنون می توان خروجی؛ یعنی M را به عنوان میانگین وزنی با تخمینهای خوش بینانه ( )، محتمل ترین ( ) و بدبینانه ( ) با معادله (19) محاسبه کرد]25[.
(19) |
جایی که w1، w2 و w3 به ترتیب وزنهای مربوطه هستند. ماکزیمم وزنها باید برای پذیرش بهترین M داده شوند.w1، w2 و w3، P و F ثابتهای اختیاری هستند که با انتخاب w1=1، w2=4 و w3=1 به معادله (20) میرسیم.
(20) |
5 – الگوریتم ژنتیک
ما در روش پیشنهادی از الگوریتم ژنتیک برای انتخاب تعداد ویژگیهای بهینه استفاده کردیم، که نحوه استفاده از آن را به صورت بیان می کنیم:
ابتدا ماتریس همبستگی[11] را با استفاده از معادله (20) به صورت زیر محاسبه می کنیم: برای هر مجموعه داده α و β را به ترتیب حد پایین و بالای تعداد ویژگیهای موجود در آن در نظر می گیریم که بهترین حالت به صورت 1=α و ماکزیمم تعداد ویژگی = β است. سپس تعداد ویژگیها (k) را (با استفاده از اصل توسعه) به عنوان یک عدد فازی مثلثی در نظر گرفته، با استفاده از پارامتر P تعداد ویژگیهای تخمینی(مرکز عدد فازی) را تغییر میدهیم و متغیرهای M1، M2 و M3 را محاسبه کرده، در آخر با فازی زدایی مقدار شایستگی (M) را به دست می آوریم(در واقع ما هر دفعه با تغییر دادن مرکز عدد فازی مثلثی مربوط به تعداد ویژگیها، M متفاوتی به دست می آوریم). و در نهایت ماتریس همبستگی با توجه به مقدار شایستگی و تابع پیش فرض ضریب همبستگی خطی Pearson's محاسبه میشود.
سپس با استفاده از الگوریتم ژنتیک به صورت زیر تعداد ویژگیهای بهینه انتخاب می شوند: با به کارگیری m، تعداد ویژگیهای تخمینی و معادله (20) تابعی برای ارزیابی همبستگی ویژگیها به کار بردهایم(البته برای اینکه تابع ارزیابی[12] کمینه شود، باید M محاسبه شده را از 100 کم کنیم)؛ یعنی تابع ارزیابی استفاده شده در الگوریتم ژنتیک همان معادله (20) است. با این تابع ارزیابی و جعبه ابزار بهینه سازی ژنتیک تعداد ویژگیهای انتخابی را از مجموعه دادهها به دست می آوریم.
6 – نتایج آزمایش
در این مقاله از شش مجموعه داده، (D1): Arrhythmia، (D2): Dbworld، (D3): Dbworld_bodies_stemmed، ،(D4): Isolet، ،(D5): Madelon و ،(D6): Multiple Features (mfeat) برای تست روش جدید استفاده شده است. مجموعه دادهها از منبع دادههای یادگیری ماشین UCI گرفته شده اند]26[. خلاصه ای از خصوصیات مجموعه دادهها در جدول (3) آمده اند. ما روش پیشنهادی را بر روی مجموعه دادههایی که ذکر شدند، پیاده سازی و چهار نوع مختلف از طبقه بندهای موجود در Weka را بر روی هر یک از این مجموعه دادهها برای محاسبه دقت کلاس بندی در این آزمایش استفاده کرده ایم. در این مقاله، روش FSFL با استفاده از الگوریتم ژنتیک برای انتخاب تعداد ویژگیها پیاده سازی شده است و با روشهای CFS و انتخاب ویژگی مبتنی بر مجموعههای سخت فازی[13] مقایسه میکنیم]27[. روش معمولی برای هر مجموعه داده آموزشی تعداد ویژگیهایی را که انتخاب می کند ثابت هستند، اما روش پیشنهادی میتواند برای هر مجموعه داده با تغییر دادن مرکز عدد فازی مثلثی استفاده شده برای تعداد ویژگیها، تعداد ویژگی متفاوتی را انتخاب کند. استفاده از نظریه مجموعه فازی در روش CFS باعث شد تا برای هر مجموعه داده استاندارد بتوانیم هر دفعه تعداد ویژگیهای متفاوتی انتخاب کنیم. در واقع ما می توانیم با روش جدید پیشنهادی تعداد ویژگیهای کمتری نسبت به روش CFS، FRFS یا روشهای انتخاب ویژگی قبلی انجام شده، انتخاب کنیم. تعداد ویژگیهای انتخابی روش جدید بر روی شش مجموعه داده در مقایسه با روشهای CFS و FRFS در جدول (4) آمده اند.
(در این جدول فقط تعداد ویژگیهای انتخابی کمتر نسبت به روش معمولی آمدهاند در صورتی که می توان با تغییر پارامترها ویژگیهای مختلفی را انتخاب کرد، اما تعداد ویژگیهایی را که روش جدید انتخاب کرده و دقت کلاس بندی نزدیک یا بیشتر از روشهای CFS و FRFS داشته باشند، آوردهایم).
جدول (3): خلاصه ای از دادههای آزمایش
مجموعه دادهها |
تعداد ویژگیها |
تعداد مثالها |
Arrhythmia |
279 |
452 |
Dbworld |
4702 |
64 |
Dbworld_bodies_stemmed |
3721 |
64 |
Isolet |
617 |
7797 |
Madelon |
500 |
1800 |
Multiple Features (mfeat) |
216 |
2000 |
سپس ما دقت کلاس بندی روش جدید را در مقایسه با روشهای CFS، FRFS و کل مجموعه داده بر روی چهار طبقه بند مختلف برای هر یک از مجموعه دادهها محاسبه کرده و در جدولهای (5)، (6)، (7)، (8)، (9) و (10) آوردهایم.
جدول (4): تعداد ویژگیهای انتخابی روش پیشنهادی
مجموعه داده |
تعداد کل ویژگیها |
تعداد ویژگیهای انتخابی روش FSFL و روشهای CFS و FRFS |
||
CFS |
FSFL |
FRFS |
||
(D1) |
279 |
11 |
8 |
131 |
(D2) |
4702 |
218 |
192 |
128 |
(D3) |
3721 |
161 |
132 |
301 |
(D4) |
617 |
4 |
3 |
80 |
(D5) |
500 |
18 |
17 |
33 |
(D6) |
216 |
8 |
7 |
27 |
جدول (5): دقت کلاس بندی روش جدید در مقایسه با روشهای قبلی و کل دادهها برای مجموعه داده D1 با چهار طبقه بند متفاوت
مجموعه داده |
طبقه بندها |
دقت کلاس بندی |
|||
کل دادهها |
CFS |
FSFL |
FRFS |
||
(D1) |
M5P |
%44.69 |
%43.52 |
%45.40 |
%44.66 |
SMOreg |
%26.45 |
%42.54 |
%42.58 |
%33.83 |
|
Bagging |
%50.9 |
%39.25 |
%49.72 |
%48.19 |
|
M5Rules |
%44.22 |
%43.52 |
%43.71 |
%44.84 |
جدول (6): دقت کلاس بندی روش جدید در مقایسه با روشهای قبلی و کل دادهها برای مجموعه داده D2 با چهار طبقه بند متفاوت
مجموعه داده |
طبقه بندها |
دقت کلاس بندی |
|||
کل دادهها |
CFS |
FSFL |
FRFS |
||
(D1) |
NaiveBayes |
%75 |
%98.43 |
%98.43 |
%84.375 |
SMO |
%87.5 |
%98.43 |
%98.43 |
%95.312 |
|
AdaBoostM1 |
%82.81 |
%98.43 |
%98.43 |
%82.812 |
|
LMT |
%81.25 |
%98.43 |
%98.43 |
%82.812 |
جدول (7): دقت کلاس بندی روش جدید در مقایسه با روشهای قبلی و کل دادهها برای مجموعه داده D3 با چهار طبقه بند متفاوت
مجموعه داده |
طبقه بندها |
دقت کلاس بندی |
|||
کل دادهها |
CFS |
FSFL |
FRFS |
||
(D3) |
NaiveBayes |
%76.56 |
%96.75 |
%96.90 |
%90.625 |
SMO |
%89.06 |
%97.70 |
%97.70 |
%98.437 |
|
AdaBoostM1 |
%79.68 |
%92.57 |
%96.87 |
%92.187 |
|
LMT |
%79.68 |
%98.43 |
%98.43 |
%84.375 |
جدول (8): دقت کلاس بندی روش جدید در مقایسه با روشهای قبلی و کل دادهها برای مجموعه داده D4 با چهار طبقه بند متفاوت
مجموعه داده |
طبقه بندها |
دقت کلاس بندی |
|||
کل دادهها |
CFS |
FSFL |
FRFS |
||
(D4) |
M5P |
%75.83 |
%33.30 |
%33.10 |
%34.40. |
SMOreg |
%72.51 |
%25.66 |
%24.82 |
%27.76 |
|
Bagging |
%80.42 |
%31.38 |
%31.38 |
%32.19 |
|
M5Rules |
%71.94 |
%32.30 |
%31.97 |
%34.15 |
جدول (9): دقت کلاس بندی روش جدید در مقایسه با روشهای قبلی و کل دادهها برای مجموعه داده D5 با چهار طبقه بند متفاوت
مجموعه داده |
طبقه بندها |
دقت کلاس بندی |
|||
کل دادهها |
CFS |
FSFL |
FRFS |
||
(D5) |
M5P |
%29.19 |
%75.32 |
%75.16 |
%11.32 |
SMOreg |
%42.77 |
%61.32 |
%60.67 |
%11.71 |
|
Bagging |
%76.82 |
%75.47 |
%75.62 |
%75.99 |
|
M5Rules |
%29.19 |
%74.38 |
%73.56 |
%11.32 |
جدول (10): دقت کلاس بندی روش جدید در مقایسه با روشهای قبلی و کل دادهها برای مجموعه داده D6 با چهار طبقه بند متفاوت
مجموعه داده |
طبقه بندها |
دقت کلاس بندی |
|||
کل دادهها |
CFS |
FSFL |
FRFS |
||
(D6) |
M5P |
%99.84 |
%75.32 |
%78.95 |
%78.99 |
SMOreg |
%99.55 |
%61.32 |
%61.32 |
%62.58 |
|
Bagging |
%99.98 |
%75.47 |
%84.62 |
%84.89 |
|
M5Rules |
%99.83 |
%74.38 |
%74.13 |
%74.91 |
همان طور که در جداول (5) تا (10) مشاهده می شود، عملکرد روش پیشنهادی (FSFL) نسبت به روش معمولی آن (CFS) و FRFS بهتر است. در روش جدید ما توانستیم با استفاده از مقادیر مختلف متغیر P و انتخاب بهینه ترین مقدار از بین آنها، تعداد ویژگیهای کمتر با متوسط دقت کلاس بندی بیشتر یا نزدیک به آن نسبت به روشهای CFS و FRFS انتخاب کنیم؛ همان طور که در نمودار شکلهای (6) و (7) آمده است.
شکل (6): نمودار مقایسه ای روش FSFL با روشهای دیگر.
شکل (7): تعداد ویژگیهای انتخابی روش FSFL در مقایسه با روشهای دیگر.
اگر چه روشهای قبلی در بعضی از مجموعه دادهها متوسط دقت کلاس بندی بیشتری دارند، ولی این روشها تعداد ویژگیهای بیشتری انتخاب می کنند که در یادگیری ماشین هدف حداقل کردن تعداد ویژگیها با متوسط دقت کلاس بندی بالاست. مقایسه نتایج آزمایشها برتری روش پیشنهادی را به طور قابل محسوسی نشان میدهد.
شکلهای (8)، (9)، (10)، (11)، (12) و (13)، نمودارهای بهترین سازگاری[xiv] (همگرایی) حاصل از الگوریتم ژنتیک در روش پیشنهادی را برای مجموعه دادههای آمده در جدول (3) نشان میدهند.
شکل (8): نمودار همگراییالگوریتم ژنتیک مجموعه داده اول
شکل (9): نمودار همگراییالگوریتم ژنتیک مجموعه داده دوم
شکل (10): نمودار همگراییالگوریتم ژنتیک مجموعه داده سوم
شکل (11): نمودار همگرایی الگوریتم ژنتیک مجموعه داده چهارم
شکل (12): نمودار همگرایی الگوریتم ژنتیک مجموعه داده پنجم
شکل (13): نمودار همگرایی الگوریتم ژنتیک مجموعه داده ششم
7 – نتیجه گیری
در این مقاله، روشی برای بهبود روش همبستگی مبتنی بر انتخاب ویژگی(CFS) در یادگیری ماشین ارائه شد. متغیر تعداد ویژگی فازی سازی شد و سپس با استفاده از اصل توسعه معیار CFS فازی سازی و مقدار آن محاسبه شد. همان طور که در آزمایشهای نشان داده شد، در این روش تعداد ویژگیهای کمتری با دقت طبقه بندی نزدیک یا بیشتر نسبت به روش قبلی برای مجموعه دادههای مختلف بر روی طبقه بندهای متفاوت به دست آمد. همچنین، در روش پیشنهادی قادر خواهیم بود تعداد ویژگیهای انتخابی را با تنظیم پارامترهای عدد فازی مثلثی تعریف شده روی متغیر تعداد ویژگی کنترل کنیم.
[1] Overfitting
[2] Feature Selection based on Fuzzy Logic
[3] Filter
[4] Wrapper
[5] Embedded
[6] Correlation based on Feature Selection(CFS)
[7] Membership Function(MF)
[8] Fuzziness
[9] Triangular Fuzzy Number
[10] Extension Principle
[11] Correlation Matrix
[12] Fitness Function
[13] Fuzzy – Rough – Set based on Feature Selection(FRFS)