Document Type : Research Article
Authors
Faculty of Electrical Engineering, Sahand University of Technology, Tabriz, Iran
Abstract
Keywords
فناوری ریزآرایه[1] در سال 1996 متولد و با عناوین آرایههای DNA[2]، تراشههای ژنی، تراشههای DNA و تراشههای زیستی نامگذاری شده است. فناوری ریزآرایه یکی از آخرین پیشرفتها در زمینه زیست شناسی ملکولی است که اجازه نظارت بر بیان هزاران ژن را بهصورت همزمان تنها در یک آزمایش هیبریداسیون میدهد. علاوه بر پتانسیل علمی این فناوری در مطالعه بنیادین بیان ژن؛ یعنی تنظیم و تعاملات ژنها، کاربردهای مهمی در پژوهشهای دارویی و کلینیکی دارد. برای مثال، با مقایسه بیان ژن در سلولهای سالم و ناسالم، ریزآرایه میتواند در شناسایی ژنهای ناسالم برای داروهای درمانی یا ارزیابی تاثیر آنها استفاده شود ]1[.
ریزآرایه دارای هزاران نقطه[3] بوده، هریک از این نقاط حاوی دنبالههای مختلف شناخته شده DNA، بهنام نشانگر[4] هستند. این نقاط روی یک اسلاید شیشهای توسط یک arrayer رباتیک چاپ میشوند. دو نوع ریزآرایه بیشترین کاربرد را دارند: آرایههای بر پایه DNA مکمل[5] وآرایه الیگونوکلئوتید که به اختصار الیگو نامیده میشود ]1[. در حالت کلی، دو تفاوت عمده بین ریزآرایه cDNA و ریزآرایه الیگونوکلئوتید وجود دارد: اول اینکه در ریزآرایه cDNA طول قطعه DNA بیشتر از طول قطعه DNA در ریزآرایه الیگونوکلئوتید است؛ دوم اینکه در آزمایشهای ریزآرایهcDNA دو نمونه RNA، نمونه کنترل و نمونه تجربی، با دو فلورسنت مختلف (Cy3 و Cy5) علامت گذاری میشوند ]3-1[. هدف از ریزآرایه cDNA مقایسه بیان ژن در دو نمونه مختلف است. شکل1 مراحل بهدست آوردن دادههای ریزآرایه را نشان میدهد. با توجه به این شکل میتوان مراحل به دست آوردن ریزآرایه DNA را بهصورت زیر بیان کرد:
در ریزآرایه cDNA نمونههای نشاندار شده با هم مخلوط میشوند و سپس با مولکولهای DNA سطح اسلاید هیبرید میشوند. هر چه جفت بازهای بیشتری با هم مکمل شوند، پیوند هیدروژنی قویتری تشکیل میشود. بعد از هیبرید شدن نمونههای نشاندار شده با مولکولهای DNA سطح اسلاید، اسلاید شسته میشود. بر اثر شستشو پیوندهای ضعیفـتر از بین میروند و پیوندهای قویتر باقی میمانند. میزان شدت و قدرت سیگنال نهایی وابسته به میزان نمونههایی است که با توالیهای روی سطح، اتصال قوی برقرار کردهاند.
دادههای ریزآرایه بهصورت ماتریسی از هزاران ستون و چند صد سطر هستند که هر سطر نشاندهنده یک نمونه و هر ستون نیز نشاندهنده یک ژن است. ابعاد بالای ویژگیها و تعداد نسبتاً کم نمونهها باعث ایجاد مشکلاتی در آنالیز دادههای ریزآرایه شده است .این مشکلات عبارتند از ]4و5[:
از اینرو، اولین قدم مهم در آنالیز دادههای ریزآرایه کاهش تعداد ژنها یا به عبارتی، انتخاب ژنهای متمایزکننده بهمنظور طبقهبندی است. در این مقاله یک الگوریتم بهینه بر مبنای مدل ترکیبی بهینهسازی ازدحام ذرات باینری[6] و آنالیز تفکیککننده خطی بیز[7] برای اینمنظور ارائه شده است. استفاده از این الگوریتم به کاهش نویز موجود در دادههای ریزآرایه و همچنین، افزایش صحت طبقهبندی آنها منجر میشود. در ادامه، در بخش2 پایگاههای داده ریزآرایه استفاده شده معرفی میشود. در بخش3، فرآیند کلی استخراج ویژگی و طبقهبندی دادههای ریزآرایه مطرح و مراحل مختلف آن توضیح داده میشود. در بخش4 مدل ترکیبی پیشنهاد شده بر پایه الگوریتم ترکیبی بهینهسازی ازدحام ذرات باینری و آنالیز تفکیککننده خطی بیز معرفی و مراحل مختلف آن به تفصیل بیان میشود. نتایج پیادهسازی بر روی چهار پایگاه داده در بخش5 مطرح شده و نهایتا بخش6 شامل نتیجهگیری و جمعبندی است.
شکل (1): مراحل مختلف بهدست آوردن دادههای ریزآرایه]1[
در این مقاله از چهار پایگاه داده ریزآرایه استفاده شده که در ادامه به توضیح آنها میپردازیم. شایان ذکر است که تمامی نمونهها با بهکارگیری آرایههای الیگو نوکلئوتیدی با چگالی بالا اندازهگیری شدهاند ]6[ . دادههای استفاده شده در این مقاله از مرجع ]7[ استخراج شده است.
سرطان خون: این پایگاه داده شامل 72 نمونه از آزمایش های ریزآرایه با 7129 سطوح بیان ژن است. مساله اصلی در آن جداسازی دو نوع از دادههای سرطان خون، ALL[8] و AML[9] است. دادهها به دو دسته 34 نمونه کنترل (20 مورد مربوط به ALL و 14 مورد مربوط به AML) که در فرآیند تست استفاده شده و 38 نمونه سرطانی (27 مورد مربوط به ALL و 11 مورد مربوط به AML) استفاده شده در فرآیند آموزش، تقسیم میشوند.
سرطان پستان: این پایگاه داده شامل 97 نمونه از آزمایش های ریزآرایه با 24481 سطوح بیان ژن است. دادهها به دو دسته 19 نمونه کنترل (12 مورد مربوط به نمونههای عود کرده[10] و 7 مورد مربوط به نمونههای عود نکرده[11]) که در فرآیند تست استفاده شده و 78 نمونه (34 مورد مربوط به نمونههای عود کرده و 44 مورد مربوط به نمونههای عود نکرده) استفاده شده در فرآیند آموزش، تقسیم میشوند.
سرطان ریه: این پایگاه داده شامل 181 نمونه از آزمایش های ریزآرایه با 12533 سطوح بیان ژن است. دادهها به دو دسته 149 نمونه کنترل (15 مورد مربوط به نمونههای [12]MPM و 134 مورد مربوط به نمونههای [13]ADCA که در فرآیند تست استفاده شده و 32 نمونه (16 مورد مربوط به نمونههای MPM و 16مورد مربوط به نمونههای ADCA استفاده شده در فرآیند آموزش، تقسیم میشوند.
سرطان پروستات: این پایگاه داده شامل 136 نمونه از آزمایش های ریزآرایه با 12600 سطوح بیان ژن است. دادهها به دو دسته 34 نمونه کنترل (25 مورد مربوط به نمونههای تومور و 9 مورد مربوط به نمونههای بدون تومور) که در فرآیند تست استفاده شده و 102 نمونه (52 مورد مربوط به نمونههای تومور و 50 مورد مربوط به نمونههای نرمال) استفاده شده در فرآیند آموزش، تقسیم میشوند.
یکی از مسائل مهم در تحلیل دادههای ریزآرایه انتخاب ژن است و آن فرآیندی است که تعداد کمی از ژنها قبل از طبقهبندی انتخاب میشوند. ابعاد بالا، تعداد نسبتا کم نمونهها و تغییرپذیری ذاتی در فرآیندهای آزمایشگاهی و بیولوژیکی باعث ایجاد مشکلاتی در آنالیز دادههای ریزآرایه شده است. از اینرو، اولین گام مهم در آنالیز دادههای ریزآرایه کاهش تعداد ژنها یا به عبارتی انتخاب ژنهای متمایزکننده بهمنظور طبقهبندی است. این مرحله انتخاب ژن نامیده میشود. شکل2 مراحل کلی استخراج ویژگی و طبقهبندی دادههای ریزآرایه را نشان میدهد. این مراحل در حالت کلی بهصورت زیر هستند که در ادامه با جزئیات کامل مطرح میشوند:
پیش از اعمال الگوریتمهای استخراج ویژگی و طبقهبندی نیاز است که داده مورد استفاده پیشپردازش شود. دادههای مورد استفاده در این مقاله با بهکارگیری نرمافزار Weka فراخوانی شده که دارای فرمت ARFF[14] هستند. بهعلت تغییرات زیاد داده، گسستهسازی مقادیر آن برای دستیابی به صحت طبقهبندی مناسب ضروری است. گسستهسازی فرآیند تبدیل ویژگیها و متغیرهای پیوسته به مقادیر و یا ویژگیهای گسسته است. معمولا طی این فرآیند، دادهها به k بخش با طول یکسان (بازههای یکسان) و یا k% از کل داده (فرکانسهای یکسان) گسسته میشوند.
پژوهش ها نشان داده که تشخیص دقیق سرطان میتواند با طبقهبندی دادههای ریزآرایه عملی شود. با وجود این، مشکل اصلی در تحلیل دادههای ریزآرایه بعد بالای آنهاست که در نتیجه تعداد بسیار زیاد متغیرها (ژنها) در مقابل تعداد کم نمونهها ایجاد میشود. اگرچه تعداد بسیار زیادی از ژن در دادههای ریزآرایه وجود دارند، تنها بخش اندکی از آنها تاثیر بسزایی در صحت طبقهبندی میگذارند. بسیاری از ژنها عملکرد مشابهی در دو حالت نرمال و غیرنرمال (سرطانی) دارند. همچنین، برخی از ژنها بهصورت نویز در دادهها ظاهر میشوند. وجود ژنهای حاوی نویز در بروز سرطان نقشی نداشته، اثر منفی در صحت طبقهبندی میگذارند. بنابراین، دادههای ریزآرایه قبل از طبقهبندی از طریق تکنیکهای انتخاب ژن پیشپردازش و ژنهای فاقد اطلاعات آنها دور ریخته میشود. انجام اینکار باعث افزایش بازدهی طبقهبندیکننده و همچنین، کاهش پیچیدگی محاسباتی خواهد شد ]8[.
بهطور کلی، میتوان گفت سه مدل انتخاب ویژگی (ژن) وجود دارد ]9[. مدل اول مدل فیلتر است که عمل انتخاب ویژگی و طبقهبندی را در دو مرحله جداگانه انجام میدهد. این مدل ژنهایی را به عنوان ژنهای مؤثر انتخاب میکند که دارای توانایی تفکیککنندگی بالایی باشند. این مدل مستقل از طبقهبندی یا الگوریتم یادگیری است و از لحاظ محاسبات ساده و سریع است. مدل دوم مدل wrapper است که انتخاب ویژگی و طبقهبندی را در یک فرآیند انجام میدهد. این مدل در حین فرآیند جستوجوی ژنهای مؤثر، از طبقهبند استفاده میکند. به عبارتی، مدل wrapper از یک الگوریتم یادگیری برای تست زیر مجموعه ژن انتخاب شده استفاده میکند. صحت مدل wrapper نسبت به مدل فیلتر بیشتر است. روشهای مختلفی برای انتخاب زیرمجموعههای مناسب بر مبنای مدل wrapper در مقالات ارائه شده است. در ]10[ از الگوریتمهای تکاملی همراه با طبقهبند K نزدیکترین همسایگی برای این منظور استفاده شده است. در ]11[ الگوریتمهای ژنتیک موازی با بهکارگیری عملگرهای تطبیقی گسترش یافته است. همچنین در ]12[ از مدل ترکیبی الگوریتم ژنتیک و ماشین بردار پشتیبان برای انتخاب یک مجموعه از ژنها و طبقهبندی آنها استفاده شده است. در ]13[ نیز مساله انتخاب و طبقهبندی ژن بهصورت یک مساله بهینهسازی چند مرحلهای مطرح شده که در آن بهطور همزمان تعداد ویژگیها (ژنها) و همچنین تعداد نمونههای اشتباه طبقهبندی شده کاهش داده میشود.
نهایتا در مدلهای ترکیبی، فرآیند انتخاب یک مجموعه از ژنهای مؤثر در حین فرآیند آموزش توسط یک طبقهبند خاص صورت میگیرد. یک نمونه از این روش، استفاده از ماشین بردار پشتیبان بههمراه حذف ویژگیهای بازگشتی است. ایده این روش، حذف یک به یک ژنها و بررسی اثر حذف شدن آنها در خطای مورد انتظار است ]14[. الگوریتم حذف ویژگیهای بازگشتی یک روش رتبهبندی ویژگی رو به عقب است؛ به عبارتی آن دسته از ژنهایی که در آخرین مرحله حذف میشوند، بهترین نتیجه طبقهبندی را بهدست میدهند، در حالیکه این ژنها ممکن است بهتنهایی همبستگی خوبی با کلاسها نداشته باشند. مدلهای ترکیبی را میتوان حالت تعمیم یافته مدل wrapper در نظر گرفت. دو نمونه دیگر از مدل ترکیبی در ]15[ و ]16[ اشاره شده است.
خیر |
بلی |
تعداد نمونههای درست طبقهبندی شده |
مدلهای طبقهبندی |
دادههای پیشپردازش شده حاوی سطوح بیان ژن |
انتخاب ژنهای مؤثر با بهکارگیری الگوریتمهای استخراج ژن |
مجموعه ژنهای حاوی اطلاعات |
مجموعه آموزشی |
مجموعه تست |
آموزش نمونهها با بهکارگیری الگوریتمهای طبقهبندی |
تعداد نمونههای درست طبقهبندی شده |
مطابقت با خروجی مطلوب دارد؟ |
شکل (2):بلوک دیاگرام مراحل مختلف تحلیل دادههای ریزآرایه |
آخرین گام در تحلیل دادههای ریزآرایه ارزیابی نتایج حاصل از اعمال الگوریتمهای طبقهبندی است. در این مقاله ارزیابی نتایج بر اساس روش اعتبارسنجی k-fold انجام گرفته که در آن k اشاره به تعداد دفعات تکرار داشته و مقدار آن برابر 10 در نظر گرفته شده است. از اینرو اعتبارسنجی fold-10 به این ترتیب صورت میگیرد که ابتدا نمونهها به 10 بخش تقسیم شده و در هر بار اجرای الگوریتم، 1/0 کل دادهها بهعنوان نمونههای تست و باقیمانده آنها بهعنوان نمونههای آموزشی در نظر گرفته میشود. این روند 10 بار با بهکارگیری دادههای آموزشی و تست مختلف انجام گرفته و نتیجه با گرفتن مقدار متوسط در 10 بار تکرار آزمایش بهدست میآید.
مدل پیشنهاد شده بر پایه آنالیز همبستگی پیرسون، الگوریتم بهینهسازی ازدحام ذرات باینری و آنالیز تفکیککننده خطی بیز است. شکل(3) بلوک دیاگرام الگوریتم پیشنهادی را نشان میدهد. گامهای اصلی این الگوریتم به صورت زیر هستند که در ادامه با جزئیات کامل مطرح میشوند:
شکل (3): بلوک دیاگرام الگوریتم پیشنهادی
بهمنظور امتیازدهی به هر ژن، دو نشانگر ویژگی ایدهآل باینری مطابق رابطه (1) تعریف میشود. اولین نشانگر در کلاس A دارای مقدار یک و در کلاس B دارای مقدار صفر است و دومین نشانگر در کلاس A دارای مقدار صفر و در کلاس B دارای مقدار یک است.
(1) |
اگر ژنها مشابه نشانگرها باشند یا بهعبارتی فاصله بین ژنها و نشانگرها کوچک باشد، آنگاه این ژنها بهعنوان ژنهای حاوی اطلاعات برای طبقهبندی انتخاب میشوند. در این مقاله برای محاسبه فاصله هر ژن از نشانگرها از معیار آنالیز همبستگی پیرسون استفاده شده که بهصورت زیر تعریف میشود]8[:
(2) |
که در آن n تعداد نمونههای آموزشی، میانگین ژن، میانگین نشانگر ایدهآل، i امین مقدار از بردار ژن و i امین مقدار باینری از بردار نشانگر ایدهآل است. بهمنظور پیشپردازش اولیه، معیار PC برای تمامی ژنها محاسبه شده و k ژن که دارای PC کوچکتری هستند بهعنوان ژنهای حاوی اطلاعات اولیه انتخاب میشوند.
ایده بهینهسازی ازدحام ذرات برای اولین بار توسط کندی و ابرهارت در سال 1995 مطرح شد ]17[. PSO یک الگوریتم محاسبهای تکاملی الهام گرفته از طبیعت و براساس تکرار است. منبع الهام این الگوریتم رفتار اجتماعی حیوانات، همانند حرکت دسته جمعی پرندگان و ماهیها بوده است. در این الگوریتم هر پاسخ مساله بهصورت یک ذره مدل میشود. هر ذره برای بهدست آوردن بهترین پاسخ مساله از تجربه خود و از تجربیات بهدست آمده از جمعیت استفاده میکند. الگوریتم PSO از تعداد مشخصی از ذرات تشکیل میشود. برای هر ذره دو مقدار موقعیت و سرعت تعریف میشود که بهترتیب با یک بردار مکان و یک بردار سرعت مدل میشوند. یک حافظه به ذخیره بهترین موقعیت هر ذره در گذشته و یک حافظه نیز به ذخیره بهترین موقعیت پیش آمده در میان همۀ ذرات اختصاص مییابد. با تجربه حاصل از این حافظهها، ذرات تصمیم میگیرند که در نوبت بعدی چگونه حرکت کنند. در طول حرکت، هر ذره موقعیت خود را با تغییر سرعت با توجه به بهترین موقعیت خود و بهترین موقعیت پیش آمده در بین همه ذرات تنظیم میکند. بنابراین، حرکت هر ذره به سه عامل بستگی دارد: موقعیت فعلی ذره، بهترین موقعیتی که ذره تاکنون داشته است(Pbest) و بهترین موقعیتی که کل مجموعه ذرات تاکنون داشتهاند(Gbest) ]17[. PSO به طور موفقیت آمیزی در زمینههای بهینهسازی توابع، فرایند آموزش شبکههای عصبی، سیستمهای کنترل فازی و غیره استفاده شده است. کندی و ابرهات در سال 1997 نوع باینری الگوریتم PSO را نیز معرفی کردند که در موارد متغیرهای گسسته باینری استفاده میشود. در BPSO موقعیت هر ذره بهصورت بردار باینری صفر و یک تعریف میشود و سرعت هر ذره بهصورت تعداد بیتهای تغییر یافته در هر تکرار تعبیر میشود ]18[.
الگوریتم BLDA یک الگوریتم قابل تنظیم بوده که بهمنظور جلوگیری از بیش برازش[16] در دادههای با ابعاد بالا بهکار میرود. با استفاده از این الگوریتم درجه تنظیم میتواند بهصورت اتوماتیک و بهسرعت از طریق دادههای آموزشی و بدون نیاز به استفاده از اعتبارسنجی تخمین زده شود. این طبقهبند برای طبقهبندی دادههای حاوی نویز و همچنین، ویژگیهایی که بهطور دقیق قابل طبقهبندی نیستند استفاده میشود ]19[ . اساس این طبقهبند بدین صورت است که در آن رگرسیون در چارچوب بیز صورت میگیرد ]20[. بدین صورت، هدفها و بردار ویژگی یک رابطه خطی با یکدیگر خواهند داشت. این رابطه بهصورت زیر است:
(3) |
که در آن t و x بهترتیب بردار هدف و ویژگی، w بردار وزن ( ) و n نویز سفید است. در این صورت تابع همانندی برای وزنهای w استفاده شده در رگرسیون بهصورت زیر بیان میشود:
(4) |
که در آن X ( ) ماتریس سطری حاوی بردارهای ویژگی، D نشاندهنده دو پارامتر ، معکوس واریانس و N نشاندهنده تعداد نمونهها در مجموعه آموزشی است. بهمنظور توصیف یک مجموعه بیز باید توزیع پیشین برای بردارهای وزن تعیین شود. این توزیع اطلاعات اولیهای درباره بردار وزن بهدست داده و بهصورت زیر تعریف میشود:
(5) |
که در آن نشاندهنده معکوس واریانس توزیع اولیه برای بردارهای وزن ، یک ماتریسی قطری مربعی با ابعاد 1+D بوده که D تعداد ویژگی است. با داشتن توزیع پیشین و تابع همانندی میتوان توزیع پسین را با بهکارگیری قانون بیز بهصورت زیر بهدست آورد:
(6) |
از آنجا که توزیع پیشین و تابع همانندی، گوسی هستند توزیع پسین نیز گوسی خواهد بود. بنابراین، میانگین و کوواریانس این توزیع بهصورت زیر است:
(7) |
(8) |
(9) |
در این مقاله از الگوریتم BPSO برای اجرای فرآیند انتخاب ژن و از الگوریتم BLDA بهعنوان ارزیابیکننده برای طبقهبندی بهدست آمده توسط BPSO استفاده شده است. روش کار بدین صورت است که الگوریتم BPSO از 30 ذره و هر ذره نیز از 70 بیت باینری تشکیل شده است. موقعیت هر ذره توسط این 70 بیت باینری تعریف میشود. هر بیت نشاندهنده یک ژن است؛ بهطوریکه بیت صفر نشاندهنده این است که ویژگی (ژن) متناظر با آن انتخاب نشده و بیت یک نیز نشاندهنده این است که ویژگی (ژن) متناظر با آن انتخاب شده است. شکل4 نمایشی از ازدحام ذرات را نشان میدهد. ذرات بعد از هر بار به روز رسانی ارزیابی میشوند. موقعیت هر ذره بیانگر یک مجموعه ژن است؛ لذا میزان تناسب هر ذره توسط طبقهبند BLDA برای ارزیابی کیفیت مجموعه ژن انتخاب شده توسط آن ذره محاسبه میشود. بهترین میزان تناسب هر ذره pbest و بهترین میزان تناسب در میان گروه ذرات gbest نامیده میشود. این فرآیند تا زمانی که معیار توقف برآورده نشود تکرار خواهد شد. معیار توقف میتواند بیشترین تعداد تکرار و یا میزان تناسب بیشینه تعریف شود ]22[. سرعت ذرات در الگوریتم BPSO توسط رابطه زیر به روز رسانی میشود:
(10) |
اگر در بازه نباشد، آنگاه سرعت ذرات در الگوریتم PSO باینری بهصورت زیر تعیین میشود:
(11) |
برای تبدیل بردار سرعت به بردار احتمال از تابع تبدیل سیگموئید بهصورت زیر استفاده میکنیم:
(12) |
از اینرو، با بهکارگیری رابطه (12) موقعیت ذرات نیز بهصورت زیر به روز رسانی میشود:
(13) |
در روابط فوق وزن اینرسی، d بعد مساله، و فاکتورهای شتاب و ، و اعداد تصادفی در بازه ]1و0[ هستند. همچنین سرعت ذره در مرحله جدید و سرعت در مرحله قبلی و موقعیت قبلی ذره است. الگوریتم BPSO بهصورت زیر خلاصه میشود:
الگوریتم BPSO شروع تولید ذرات اولیه بهصورت تصادفی تازمانی که معیار توقف برآورده شود، مراحل زیر تکرار میشوند:
ارزیابی میزان تناسب ذرات توسط طبقهبند BLDA برای p =1:N (N تعداد ذرات)
اگر (میزان تناسب ) > (میزان تناسب ) آنگاه
پایان
اگر (میزان تناسب یکی از ها) > (میزان تناسب ) آنگاه موقعیت آن ذره پایان
برای (D: تعداد ابعاد ذرات)
اگر در بازه نباشد آنگاه:
استفاده از تابع تبدیل سیگموئید تبدیل بردار سرعت به بردار احتمال
اگر آنگاه . در غیراینصورت
تکرار مراحل فوق تا برآورده شدن معیار توقف. پایان |
شکل (4): نمایش ازدحام ذرات در الگوریتم BPSO
کلیه مراحل پیادهسازی الگوریتم پیشنهادی بر روی یک کامپیوتر با پردازنده GHz4/3 و حافظه RAM برابر GHz1 انجام گرفته است. مقادیر پارامترهای استفاده شده درالگوریتم BPSO در جدول1 نشان داده شده است.
در جدول2 نتایج بهدست آمده از صحت الگوریتم پیشنهادی با اعمال روش اعتبارسنجی fold-10 و همچنین میانگین صحت در چهار پایگاه داده نشان داده شده است. در این جدول، Acc (٪) و Avg (N) بهترتیب نشاندهنده صحت در 10 بار اجرای الگوریتم و میانگین تعداد ژنهای انتخاب شده در هر بار اجرای الگوریتم است. همانطور که مشاهده میشود، بیشترین صحت طبقهبندی در پایگاه داده سرطان خون برابر 39/92 بوده هنگامی که میانگین تعداد ژنهای انتخاب شده برابر 48 است. کمترین صحت طبقهبندی در این پایگاه داده نیز برابر 47/85 است که در اینحالت 67 ژن انتخاب شده است. بهطور مشابه، بیشترین صحت طبقهبندی در پایگاههای داده ریه، پستان و پروستات بهترتیب 66/99، 63/94 و 68/96 است که میانگین تعداد ژنهای انتخاب شده در آنها بهترتیب 39، 43 و 50 است. کمترین مقدار صحت طبقهبندی در این پایگاههای داده نیز بهترتیب برابر 26/96، 78/90 و 05/94 است که در اینحالت میانگین تعداد ژنهای انتخاب شده بهترتیب برابر 38، 38 و 40 است. در شکل5 نیز میانگین صحت طبقهبندی الگوریتم پیشنهادی در 10 بار اجرای آن در چهار پایگاه داده بهطور شهودی نشان داده شده است.
جدول (1): مقادیر پارامترهای بهکار رفته در الگوریتم BPSO
مقادیر پارامترهای استفاده شده در الگوریتم PSO باینری |
|
m: تعداد ذرات |
30 |
C1 , C2: فاکتورهای شتاب |
2 |
Vmax: بیشینه سرعت ذرات |
6 |
Vmin: کمینه سرعت ذرات |
6- |
R1 , R2: اعداد تصادفی |
]1و0[ |
N: طول هر ذره(تعداد بیت) |
70 |
Max iter: بیشینه تکرار |
50 |
w: وزن اینرسی |
|
Wmax: بیشینه وزن اینرسی |
995/0 |
Wmin: کمینه وزن اینرسی |
5/0 |
پایگاههای داده |
تعداد اجرای الگوریتم |
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
||||
|
ACC (%) |
Avg |
ACC (%) |
Avg |
ACC (%) |
Avg |
ACC (%) |
Avg |
||||
1 |
57/90 |
42 |
63/99 |
40 |
41/94 |
43 |
56/94 |
54 |
||||
2 |
39/92 |
48 |
33/99 |
40 |
75/93 |
24 |
52/95 |
52 |
||||
3 |
64/89 |
48 |
26/99 |
50 |
52/94 |
41 |
83/95 |
45 |
||||
4 |
47/85 |
67 |
56/99 |
39 |
15/92 |
34 |
63/99 |
50 |
||||
5 |
21/89 |
47 |
26/96 |
38 |
63/94 |
43 |
68/96 |
50 |
||||
6 |
64/86 |
45 |
33/99 |
40 |
32/92 |
29 |
19/96 |
40 |
||||
7 |
56/87 |
39 |
33/99 |
40 |
41/94 |
48 |
05/94 |
40 |
||||
8 |
62/87 |
37 |
28/99 |
53 |
41/94 |
42 |
12/94 |
40 |
||||
9 |
11/88 |
65 |
37/99 |
40 |
77/91 |
34 |
56/96 |
57 |
||||
10 |
99/87 |
62 |
66/99 |
39 |
78/90 |
38 |
25/96 |
45 |
||||
میانگین |
53/88 |
50 |
43/99 |
42 |
31/93 |
38 |
93/95 |
47 |
شکل (5): ترسیم منحنی میانگین صحت طبقهبندی الگوریتم پیشنهادی در 10 بار اجرای آن بر روی چهار پایگاه داده
در جدول3 مقایسه الگوریتم پیشنهادی با سایر روشهای موجود در مراجع از نظر صحت طبقهبندی در پایگاه داده سرطان خون نشان داده شده است. همانطور که مشاهده میشود، میزان بهبود صحت طبقهبندی در الگوریتم پیشنهادی نسبت به روشهای PSO+ANN ]23[، Nero-Fuzzy ]24[ و KNN ]25[ بهترتیب بهمیزان 8/2، 2/1 و 9/21 درصد است. صحت الگوریتم پیشنهادی تنها از الگوریتم طبقهبند Bayesian ]26[ پایینتر است. بهطور مشابه، عملکرد الگوریتم پیشنهادی با سایر روشها در پایگاه داده سرطان ریه مقایسه شده و در جدول4 نشان داده شده است. بر اساس این جدول، صحت طبقهبندی در الگوریتم پیشنهادی نسبت به روشهای PSO+SVM ]27[، IPSO+KNN ]28[، PSO+ANN و Bayesian بهترتیب بهمیزان 4/0، 9/2، 1/1 و 7/11 درصد بهبود مییابد. صحت طبقهبندی الگوریتم پیشنهادی در این پایگاه داده تنها از روش ترکیبی PSO+ Ensemble NN ]23[ کمتر است. عملکرد الگوریتم پیشنهادی با روشهای PSO+SVM، GA+SVM ]27[ و Bayesian در پایگاه داده سرطان پستان نیز مقایسه شده که در جدول5 نشان داده شده است. برتری الگوریتم پیشنهادی نسبت به دو روش PSO+SVM و Bayesian بهوضوح در این جدول مشاهده میشود؛ بهطوریکه میزان بهبود در الگوریتم پیشنهادی بهترتیب برابر 4/9 و 1/26 درصد است. نهایتا الگوریتم پیشنهادی با روشهای IPSO+KNN، الگوریتم ترکیبی PSO/GA+SVM ]29[ و KNN+EA ]30[ اعمال شده
بر پایگاه داده سرطان پروستات مقایسه و در جدول6 نشان داده شده است. برتری الگوریتم پیشنهادی نسبت به همه روشهای مطرح شده در این جدول مشاهده میشود؛ بهطوریکه میزان بهبود صحت بهترتیب برابر 1/4، 7/2 و 9/7 درصد است.
دلیل برتری الگوریتم پیشنهادی را میتوان از دو لحاظ انتخاب ویژگی و روش طبقهبندی بررسی نمود. BPSO شباهت زیادی با الگوریتمهای محاسبهای تکاملی مانند الگوریتم ژنتیک دارد. BPSO بر اساس رفتار اجتماعی در جمعیتهای بیولوژیکی است. الگوریتمهای BPSO و ژنتیک روشهای جستجوی مبتنی بر جمعیت هستند که با اشتراک گذاری اطلاعات میان اعضای خود و با استفاده از قوانین قطعی و احتمالی، فرآیند جستجو را بهبود میبخشند. با این حال BPSO اپراتورهای ژنتیک مانند اپراتورهای تقاطع و جهش را ندارد. البته، مدل اجتماعی تعامل بین ذرات را میتوان شبیه اپراتور تقاطع در نظر گرفت. برای مثال، پارامترهای rand1 و rand2 (رابطه 10) که بر سرعت ذرات اثر میگذارند، شبیه پارامتر جهش در الگوریتم ژنتیک هستند. در حقیقت، تنها تفاوت بین آنها این است که اپراتورهای تقاطع و جهش در الگوریتم ژنتیک احتمالاتی است، در حالیکه ذرات جدید در BPSO باید در هر تکرار بدون هیچ احتمالی پردازش شوند. در مقایسه با الگوریتم ژنتیک، مکانیسم به اشتراک گذاری اطلاعات در BPSO بهطور قابل توجهی متفاوت است. در الگوریتم ژنتیک سیر تکاملی با استفاده از اپراتورهای تقاطع و جهش انجام میشود. کروموزومها اطلاعات را بین یکدیگر به اشتراک گذاشته، کل جمعیت همانند یک گروه به سمت منطقه هدف حرکت میکنند. در فضای مساله، این مدل شبیه به جستجوی فقط یک ناحیه است. بنابراین، نقطه ضعف این مدل این است که به راحتی میتواند در بهینههای محلی گیر کند، اما در BPSO هر ذره در فضای مساله بهصورت یکنواخت توزیع شده و فقط gbest اطلاعات را برای سایر ذرات فراهم میکند. این یک مکانیسم به اشتراکگذاری یکطرفه است و سیر تکاملی فقط در جهت بهترین راه حل است. عملکرد BPSO تحت تاثیر پارامترهای w و فاکتورهای شتاب c1 و c2 است. با مقداردهی مناسب این پارامترها (جدول 1) بهراحتی میتوان به نتایج مطلوب دست یافت. اگر مقادیر این پارامترها خیلی کوچک انتخاب شود، حرکت ذرات نیز خیلی آهسته و زمانبر خواهد بود و اگر مقادیر پارامترها بزرگ انتخاب شود، الگوریتم تضعیف شده و مجموعه ویژگیهای مفید به دست نمیآید. بنابراین، تنظیم مناسب پارامترها، الگوریتم BPSO را بهراحتی قادر به انتخاب ویژگیهای مهم میکند.
در مورد روش انتخاب طبقهبندی نیز میتوان اینگونه توضیح داد که اگرچه SVM در طبقهبندی تومور در اغلب موارد بهخوبی عمل میکند، ولی پیچیدگی محاسباتی بالایی در یافتن بهترین ترکیب پارامترها دارد]31[. اما طبقهبند BLDA بهراحتی و با صرف زمان کم قابل پیادهسازی است. همانطور که در جدولهای 3 الی 6 مشاهده میشود، ترکیب روش انتخاب ژن BPSO و طبقهبند BLDA در اغلب موارد دارای نتیجه بهتری است.
همانطور که از شکلهای6 (الف) تا (د) مشاهده میشود، الگوریتم پیشنهادی بهخوبی قادر به جداسازی سطوح بیان ژنها به دو کلاس است. برای مثال در داده سرطان خون (شکل6 (الف))، تعداد 27 نمونه مربوط به کلاس ALL و 11 نمونه مربوط به کلاس AML است که این تفکیک بهخوبی در این شکل نشان داده شده است. بهطور مشابه، در داده سرطان پستان نیز تعداد 34 نمونه مربوط به نمونههایی است که در آنها سرطان عود کرده و 44 نمونه نیز به نمونههایی مرتبط است که سرطان در آنها عود نکرده است. این تفکیک نیز در شکل6 (ب) مشاهده میشود. در دادههای سرطان ریه و پروستات نیز وضعیت مشابهی مشاهده میشود؛ بهطوریکه در دادههای سرطان ریه تعداد 16 نمونه مربوط به نمونههای MPM و 16 نمونه نیز مربوط به ADCA است و این تفکیک در شکل6 (ج) نشان داده شده است. نهایتا در دادههای سرطان پروستات نیز تعداد 52 نمونه مربوط به نمونههای تومور و 50 نمونه نیز مربوط به نمونههای بدون تومور است و این تفکیک نیز در شکل6 (د) بهخوبی انجام گرفته است. در جداول 7 تا 10 نیز شماره ژنهای مؤثر بهدست آمده از اعمال الگوریتم پیشنهادی آورده شده است.
جدول (3): مقایسه نتایج کمّی صحت طبقهبندی در الگوریتم پیشنهادی و سایر روشها در پایگاه داده سرطان خون
الگوریتم انتخاب ژن |
طبقهبند |
صحت طبقهبندی (٪) |
BPSO |
BLDA |
5/88 |
PSO |
ANN |
1/86 |
- |
Nero-Fuzzy |
5/87 |
- |
KNN |
6/72 |
- |
Bayesian |
2/91 |
جدول (4): مقایسه نتایج کمّی صحت طبقهبندی در الگوریتم پیشنهادی و سایر روشها در پایگاه داده سرطان ریه
الگوریتم انتخاب ژن |
طبقهبند |
صحت طبقهبندی (٪) |
BPSO |
BLDA |
5/99 |
PSO |
SVM |
0/99 |
IPSO |
KNN |
5/96 |
PSO |
Ensemble Neural Network |
100 |
PSO |
ANN |
3/98 |
- |
Bayesian |
4/89 |
جدول (5): مقایسه نتایج کمّی صحت طبقهبندی در الگوریتم پیشنهادی و سایر روشها در پایگاه داده سرطان پستان
الگوریتم انتخاب ژن |
طبقهبند |
صحت طبقهبندی (٪) |
BPSO |
BLDA |
5/93 |
PSO |
SVM |
3/85 |
GA |
SVM |
8/95 |
- |
Bayesian |
1/74 |
جدول (6): مقایسه نتایج کمّی صحت طبقهبندی در الگوریتم پیشنهادی و سایر روشها در پایگاه داده سرطان پروستات
الگوریتم انتخاب ژن |
طبقهبند |
صحت طبقهبندی (٪) |
BPSO |
BLDA |
9/95 |
IPSO |
KNN |
1/92 |
Hybrid PSO/GA |
SVM |
4/93 |
EA |
KNN |
9/88 |
AML |
ALL |
(الف)
Relapse |
Non relapse |
(ب)
Mesothelioma |
ADCA |
(ج)
Tumor |
Normal |
(د)
شکل (6): مجموعه ژنهای حاوی اطلاعات انتخاب شده با اعمال الگوریتم پیشنهادی در پایگاههای داده: (الف) سرطان خون؛ (ب) سرطان پستان؛ (ج) سرطان ریه و (د) سرطان پروستات
جدول (7): شماره ژنهای مؤثر در بروز سرطان خون بهدست آمده از اعمال الگوریتم پیشنهادی
6362 |
1249 |
1745 |
173 |
5122 |
1247 |
2394 |
2288 |
2267 |
5039 |
922 |
6797 |
2111 |
6405 |
1539 |
2759 |
2402 |
4407 |
|
4549 |
6378 |
1882 |
6919 |
461 |
1807 |
4499 |
6539 |
|
1883 |
248 |
2121 |
4229 |
6376 |
4096 |
6677 |
3847 |
|
1394 |
2186 |
3605 |
4196 |
5637 |
818 |
2020 |
4052 |
جدول (8): شماره ژنهای مؤثر در بروز سرطان پستان بهدست آمده از اعمال الگوریتم پیشنهادی
462 |
16038 |
23179 |
12680 |
18109 |
3524 |
19891 |
8576 |
659 |
8071 |
13490 |
2141 |
838 |
9156 |
6541 |
9274 |
89 |
11513 |
1686 |
11145 |
14204 |
22599 |
20453 |
7459 |
16214 |
4732 |
512 |
|
12427 |
16930 |
12017 |
14324 |
21818 |
23207 |
9476 |
10504 |
|
6598 |
6214 |
10643 |
13835 |
9730 |
13343 |
2769 |
18807 |
جدول (9): شماره ژنهای مؤثر در بروز سرطان ریه بهدست آمده از اعمال الگوریتم پیشنهادی
8172 |
6571 |
9474 |
5248 |
1673 |
3361 |
1612 |
7000 |
8858 |
6106 |
10570 |
2205 |
7069 |
3902 |
6405 |
9228 |
4331 |
9064 |
11957 |
5853 |
10664 |
7249 |
10859 |
4336 |
|
5854 |
8370 |
11891 |
11620 |
343 |
11470 |
4174 |
|
561 |
7200 |
12152 |
3844 |
3334 |
2549 |
1611 |
جدول (10): شماره ژنهای مؤثر در بروز سرطان پروستات بهدست آمده از اعمال الگوریتم پیشنهادی
11013 |
6995 |
8552 |
306 |
9341 |
329 |
10996 |
10092 |
2912 |
7067 |
344 |
4351 |
11202 |
6158 |
5757 |
8123 |
11215 |
549 |
8716 |
8965 |
11818 |
3703 |
7896 |
5155 |
12448 |
8378 |
4365 |
2839 |
|
8527 |
6512 |
288 |
1257 |
12148 |
7775 |
[1]Microarray
[2]Deoxyribonucleic Acid
[3]Spot
[4]Prob
[5]Complementary DNA (cDNA)
[6]Binary Particle Swarm Optimization(BPSO)
[7]Bayesian Linear Discriminant Analysis (BLDA)
[8]Acute Lymphoblastic Leukemia
[9]Acute Myeloid Leukemia
[10]Relapse
[11]Non-Relapse
[12]Malignant Pleural Mesothelioma
[13]Adenocarcinoma
[14]Attribute- Relation File Format
[15]Person Correlation (PC)