Document Type : Research Article
Authors
, Dept. of Electrical and Computer Engineering, University of Birjand, Birjand, Iran
Abstract
Keywords
امروزه با گسترش فناوریهای نوین که برای ارتباط با کاربر از صفحات لمسی استفاده میکنند، نیاز به یک روش بازشناسی برخط دستنوشته برای ارتباط با کاربر احساس میشود. اما در پارهای از موارد، به دلیل کوچک بودن صفحات لمسی تعبیه شده در این ابزارها از حروف مجزا برای شناسایی دستنوشته استفاده میشود. این مقاله به منظور ارایه روشی سریع، دقیق و با قابلیت اطمینان[1] بالا به بازشناسی برخط حروف مجزای دستنویس فارسی مبتنی بر پایگاه داده Online-TMU[2] [1] میپردازد.
بازشناسی نوشتار با توجه به نحوه دریافت اطلاعات ورودی به دو دسته برونخط[3] و برخط[4] تقسیم میشود. بازشناسی برونخط شامل بازشناسی نوشتار تایپی و نوشتار دستنویس میشود ولی بازشناسی برخط فقط در بازشناسی دستنوشته کاربرد دارد. در بازشناسی برخط، ورودی از طریق لوح یا وسایل حساس به لمس و یا بهطور مستقیم از طریق قلم نوری دریافت میشود. در بازشناسی برخط، مختصات نقاط مسیر حرکت قلم، تعداد حرکات قلم و در پارهای از موارد فشار حرکت قلم در دسترس هستند [4-2].
تاکنون در مقایسه با زبانهای لاتین برای بازشناسی برخط دستنوشته فارسی و عربی تحقیقات کمتری انجام شده است [3,4]. در ادامه همین بخش کارهای انجام شده روی پایگاه داده Online-TMU بهطور مختصر بیان میشود.
در [5] حروف مجزای فارسی بر اساس نقاط و علایم بالا یا پایین بدنه اصلی به 12 گروه تقسیم میشوند. نخست نقاط و علایم بالا یا پایین هر حرف تشخیص داده میشود و سپس با توجه به آن گروهی که حرف ناشناخته در آن قرار میگیرد، تعیین میشود. در صورتی که در گروه مربوط فقط یک کلاس وجود داشته باشد، آن کلاس به حرف ناشناخته نسبت داده میشود وگرنه بدنه حرف ناشناخته با بدنههای حروفی از پایگاه داده که با حرف ناشناخته همگروه هستند مقایسه میشود و با طبقهبندی کمترین فاصله بازشناسی انجام میگیرد. در [5] اگر گروه شناسایی شده از ریزحرکات بهنادرستی تشخیص دادهشود تعیین کلاس خروجی نهایی حرف ناشناخته منجر به خطا در بازشناسی خواهدشد. در [6] یک روش مبتنی بر گروهبندی، جهت بازشناسی حروف مجزای برخط فارسی مستقل از نویسنده، ارایه میشود. مدلسازی با استفاده از مدل مخفی مارکوف[5] (HMM) انجام میپذیرد و ویژگیهای متعددی از دنباله نقاط نمونهبرداری شده از حروف دستنوشته، جهت تخمین پارامترها، استخراج شدهاست. بهترین نتیجه با استفاده از ویژگیهای مشتق زمانی مرتبه اول و مولفههای افقی و عمودی نقاط روی محورهای مختصات و تفاضل زوایای نقاط پیدرپی، بهدست آمدهاست. در [6] روشی مستقل از نویسنده ارایه میگردد به معنی دیگر محدودیتی برای نگارش حروف اعمال نشدهاست اما نرخ بازشناسی قابل قبول نیست. در [7]، [8] فرآیند بازشناسی در دو مرحله انجام میگیرد، در مرحله اول بدنه اصلی حرف ورودی (اولین حرکت قلم) در قالب یکی از هجده گروه بدنه اصلی حروف، طبقهبندی[6] میشود و سپس در مرحلهی دوم موقعیت، تعداد و شکل سایر حرکتها مانند نقطه و سرکش (ریزحرکتها)، حرف نهایی را تعیین میکند، که در [7] طبقهبندی با مدل مخفی مارکوف (HMM) و در [8] با استفاده از ماشین بردار پشتیبان [7](SVM) انجام میشود. در [7]، [8] برای تعیین کلاس خروجی نهایی حرف ناشناخته بعد از تشخیص بدنه اصلی حروف برای ریزحرکتها محدودیتی اعمال شدهاست که در بخش دوم تشریح میگردد. در [9] استخراج ویژگیهای حروف تنهای فارسی که به صورت برخط نوشته شده باشند بهمنظور گروهبندی درست آنها، ارایه شدهاست. حروف بر اساس شکل و ساختار بدنه اصلی آنها به 9 گروه تقسیم میشوند و ویژگیهای ساختاری تعیین میگردد. گروهبندی با استفاده از درخت تصمیم[8] انجام میشود. در آموزش درخت تصمیم، برای هر حرف ورودی از مجموعه تمرین، تمام ویژگیها محاسبه میشود و درخت تصمیم هر ویژگی را در جایی که لازم است و به بازشناسی کمک میکند بهکار میگیرد. در [9] برای استخراج ویژگیهای ساختاری تنوع نگارشی حروف مختلف در نظر گرفته نشدهاست. در [10] یک رویکرد فازی[9] برای بازشناسی و یادگیری حروف مجزای برخط فارسی معرفی شدهاست. یک الگوریتم تکهبندی سلسله مراتبی معرفی میشود و برای توصیف و شناسایی تکههای بدنه اصلی حروف از دستهبند فازی استفاده میشود. بعد از مقایسهی بدنهی ورودی با الگوهای بدنه حروف، مقایسهی علایم ثانویه صورت میگیرد. این علایم نیز با قوانین فازی توصیف میشوند. در [10] سرعت قابل ملاحضهای برای بازشناسی حروف ناشناخته ارایه شدهاست اما نرخ بازشناسی قابل قبول نیست.
در این مقاله، روشی برای بازشناسی برخط حروف مجزای دستنویس فارسی ارایه میشود. در روش پیشنهادی برای بازشناسی حروف مجزای دستنویس فارسی، از دانش مربوط به بدنه اصلی و ریزحرکات بهطور همزمان و بهمنظور اعتبار بیشتر تعیین کلاس خروجی استفاده شدهاست. در این تحقیق حروف مجزای دستنویس فارسی بر اساس تشابه بدنه اصلی در 18 گروه، و بر اساس ریزحرکات در 11 گروه، گروهبندی میشوند. برای مثال، سیستم برای حرف «»، بدنه اصلی «» و ریزحرکات «» را شناسایی میکند، اگر گروه شناسایی شده از بدنه اصلی و گروه شناسایی شده از ریزحرکات همخوانی داشته باشند، نمونه ناشناخته بازشناسی میشود. در صورت بروز ناهمخوانی احتمالی بین گروههای شناسایی شده از بدنه اصلی و ریزحرکات تصمیمگیری نهایی برای تعیین کلاس خروجی به عملیات پسپردازش واگذار میشود. در عملیات پسپردازش ناهمخوانی پیشآمده با استفاده از الگوریتم تصحیح خطا، تاحد امکان تصحیح میگردد. در بازشناسی برخط مهمترین چالش تنوع زیاد در سبک نگارش افراد مختلف است. بنابراین یک روش بازشناسی باید نسبت به تغییرات جزیی که در نگارش یک حرف ممکن است رخ دهد، حساس نباشد ولی حروف متفاوتی را که شبیه به هم نوشته میشوند را بهدرستی از یکدیگر تشخیص دهد.
در ادامه این مقاله، در بخش دوم پایگاه داده معرفی و نگارش حروف بیان میشود. در بخش سوم الگوریتم پیشنهادی بازشناسی برخط حروف مجزای دستنویس فارسی بهطور کامل تشریح میگردد. در بخش چهارم آزمایشها و ارزیابی نتایج ارایه میگردد. در پایان و در بخش پنجم نتیجهگیری ارایه میشود.
مجموعه داده Online-TMU توسط دانشکده مهندسی برق دانشگاه تربیت مدرس جمعآوری شدهاست. این مجموعه داده شامل 4022 حرف مجزا از مجموعه حروف فارسی میباشد که 124 نفر آنها را با قلم صفحهWACOM GRAPHIRE نوشتهاند، شایان ذکر است که بیشتر نویسندگان برای اولین بار از قلم نوری و صفحه روقومی کننده[10] استفاده کردهاند. در نوشتن حروف اعم از بدنه اصلی و ریزحرکات هیچ محدودیتی اعمال نشدهاست [5]. شکل (1) نمونهای از نگارش حروف مجزای فارسی در پایگاه داده Online-TMU را نشان میدهد.
شکل (1) : نمونهای از نگارش حروف مجزای دستنویس فارسی [5].
حروف مجزا در نگارش فارسی دارای دو قسمت میباشند. قسمت اصلی حروف مجزا «بدنه»، و علایمی مانند نقطه، سرکش و دسته «ریزحرکت» نامیده میشوند [8,10]. زبان فارسی شامل 32 حرف است. 17 حرف از این حروف دارای نقطه هستند. تعداد نقاط این حروف بین یک تا سه متغیر است. نقاط ممکن است در بالا، پایین یا داخل بدنه حرف قرار گیرند. در پایگاه داده Online-TMU فرض بر این است که نویسنده حرف را به فرم متعارف نوشتهاست. یعنی ابتدا بدنه اصلی حرف را در یک حرکت قلم و سپس ریزحرکات را نوشتهاست. اما نمونههایی نیز وجود دارند که به فرم متعارف نوشته نشدهاند. تعداد این نمونهها 67 مورد است. در شکل (2) نمونههایی از دادهها با ساختار متعارف و ساختار نامتعارف قابل مشاهده میباشند. نقاط سیاه پررنگ نقطه اول هر حرکت قلم را نشان میدهد. شماره کنار هر حرکت قلم نشان دهنده ترتیب نوشتن حرکات قلم است.
(الف) |
|
(ب) |
شکل (2) : نمونههایی از نگارش حروف [5]، (الف) نگارش متعارف، (ب) نگارش نامتعارف.
همانطور که بیان شد در نحوه نوشتن بدنه اصلی و همچنین نقاط هیچ محدودیتی در نظر گرفته نشدهاست [5]. به عنوان مثال برای حرف دستنویس «پ» نمونه به صورت دو حرکتی «» و سه حرکتی «» و چهار حرکتی «» موجود است [6]. در [7,8] برای نوشتن ریزحرکتها محدودیتی اعمال شدهاست، به این ترتیب که «سه نقطه» میبایست از ترکیب «دونقطه» و «تک نقطه» تشکیل شده باشد. به علاوه دسته «ط» و «ظ» و سرکش «ک» و «گ» میبایست در حرکتی به جز حرکت بدنه اصلی نوشته شود. به عبارت دیگر حروف «ط» و «ک» باید در دو حرکت قلم و حروف «ظ» و «گ» باید در سه حرکت قلم نوشته شوند. حال آنکه در پایگاه داده Online-TMU برای نگارش حروف هیچ محدودیتی در نظر گرفته نشدهاست.
شایان ذکر است که برای حروف مجزای پایگاه داده Online-TMU استفادهشده در این تحقیق هیچ نمونهای حذف نشدهاست. و همچنین محدودیتی برای نگارش ریزحرکات اعمال نشدهاست.
در روش ارایه شده برای بازشناسی حروف مجزای فارسی از اطلاعات مربوط به بدنه اصلی و ریزحرکات بهطور همزمان استفاده شدهاست. به عنوان مثال برای حرف «چ» بدنه اصلی و ریزحرکات شناسایی میشوند. اگر گروه شناسایی شده از بدنه با گروه شناسایی شده از ریزحرکات همخوانی داشته باشند، نمونه ناشناخته شناسایی میشود. در غیر اینصورت با استفاده از الگوریتم تصحیح خطا ناهمخوانی پیشآمده تاحد امکان تصحیح میگردد. در این تحقیق حروف مجزای دستنویس فارسی بر اساس تشابه بدنه اصلی آنها به 18 گروه و بر اساس ریزحرکات به 11 گروه تقسیم میشوند که به ترتیب در جدول (1) و (2) قابل مشاهده هستند.
در فرآیند بازشناسی و قبل از طبقهبندی دادهها، پردازشهایی روی دادهها انجام میگیرد. ابتدا بهمنظور یکنواخت کردن، پیشپردازش[11] روی داده خام انجام میگیرد. سپس برای بهره بردن از ویژگیهای قابل استفاده، استخراج ویژگی[12] انجام میشود. در ادامه بهمنظور استفاده از ویژگیهای کارآمد کاهش ابعاد ویژگی[13] انجام میشود. سپس طبقهبندی انجام میگیرد و در نهایت پسپردازش[14] انجام میشود.
جدول (1) : گروهبندی حروف بر اساس بدنه اصلی
گروه |
اعضا گروه |
|
گروه |
اعضا گروه |
1 |
ا،آ |
|
10 |
ف |
2 |
ب،پ،ت،ث |
|
11 |
ق |
3 |
ج،چ،ح،خ |
|
12 |
ک،گ |
4 |
د،ذ |
|
13 |
ل |
5 |
ر،ز،ژ |
|
14 |
م |
6 |
س،ش |
|
15 |
ن |
7 |
ص،ض |
|
16 |
و |
8 |
ط،ظ |
|
17 |
ه |
9 |
ع،غ |
|
18 |
ی |
جدول (2) : گروهبندی حروف بر اساس ریزحرکات
گروه |
اعضا گروه |
نوع ریزحرکات |
1 |
ا،ح،د،ر،س،ص،ع،ل،م،و،ه،ی |
بدون ریزحرکت |
2 |
آ |
یک مد بالا |
3 |
ب،ج |
یک نقطه پایین |
4 |
خ،ذ،ز،ض،غ،ف،ن |
یک نقطه بالا |
5 |
ت،ق |
دو نقطه بالا |
6 |
ث،ژ،ش |
سه نقطه بالا |
7 |
پ،چ |
سه نقطه پایین |
8 |
ک |
یک سرکش بالا |
9 |
گ |
دو سرکش بالا |
10 |
ط |
یک دسته بالا |
11 |
ظ |
یک دسته و یک نقطه بالا |
در فرآیند بازشناسی و قبل از طبقهبندی دادهها، پردازشهایی روی دادهها انجام میگیرد. ابتدا بهمنظور یکنواخت کردن، پیشپردازش[15] روی داده خام انجام میگیرد. سپس برای بهره بردن از ویژگیهای قابل استفاده، استخراج ویژگی[16] انجام میشود. در ادامه بهمنظور استفاده از ویژگیهای کارآمد کاهش ابعاد ویژگی[17] انجام میشود. سپس طبقهبندی و در نهایت پسپردازش انجام میشود.
پیشپردازش یکی از مراحل اساسی در بازشناسی دستنوشته میباشد که اجرای صحیح آن کمک شایان توجهی به بهبود نرخ بازشناسی میکند [11]. از آنجایی که دادههای برخط با قلم نوری روی صفحه حساس به لمس نوشته میشوند، تنوع زیادی در تعداد و فاصله بین نقاط و همچنین ابعاد دادههای نمونهبرداری شده دارند. از اینرو برای اینکه بتوان تغییرات در تنوع نوشتاری را به حداقل رساند میبایست پیشپردازشهایی روی دادهها انجام داد [12]. در این پژوهش روی بدنه اصلی حروف پیشپردازشهایی چون حذف نقاط تکراری، حذف قلاب، پالایش نقاط، یکسانسازی تعداد نقاط و فاصله بین آنها، یکسانسازی ابعاد و انتقال به مبدا مختصات انجام شدهاست، که در ادامه توضیحاتی در این زمینه ارایه میگردد.
با بررسی مختصات نقاط نمونهبرداری شده، اگر موقعیت مکانی یکسانی برای نقاط وجود داشته باشد یکی از آنها نگهداشته شده و بقیه حذف میشوند [12].
قلابها معمولا در ابتدا و انتهای حرکت قلم ظاهر میشوند. مشخصه قلابها طول کوتاه و تغییر زاویه زیاد است [12,13]. با استفاده از این پیشپردازش میتوان حرکات اضافی ابتدا و انتهای حرکت قلم را تا حد قابل قبولی از بین برد. بنابراین قلابها با استفاده از دو مشخصه ذکر شده تشخیص داده شده و سپس حذف میشوند.
نقاطی که فاصله بین آنها کمتر از دو برابر میانگین فواصل بین نقطهای باشد حذف میشوند. با استفاده از این پیشپردازش میتوان لرزش حرکت دست هنگام نوشتن را تا حدی از بین برد [8]. در شکل (3) نمونهای از پالایش نقاط دیده میشود.
(الف) |
(ب) |
شکل (3) : نمونهای از پالایش نقاط، (الف) قبل از پیش پردازش، (ب) بعد از پیشپردازش.
ابتدا با استفاده از درونیابی بین نقاط نمونهبرداری شده از حرکت قلم، مسیر حرکت قلم تخمین زده میشود. سپس با در دست داشتن طول حرکت قلم، 50 نقطه که فاصلهی یکسانی از هم دارند استخراج میشود [12,13]. شکل (4) نمونهای از یکسانسازی در تعداد نقاط و فاصله بین آنها را نشان میدهد.
(الف) |
(ب) |
شکل (4) : نمونهای از یکسانسازی نقاط و فاصله بین آنها، (الف) قبل از پیشپردازش، (ب) بعد از پیشپردازش.
از آنجایی که ابعاد نویسهها در دادههای نمونهبرداری شده برای افراد مختلف متفاوت است، بنابراین همه نمونهها در یک چارچوب 100×100 قرار میگیرند. همچنین برای یکسانسازی در نقطه شروع حرکت قلم، نقطهی آغازین حرکت قلم به نقطه (0,0) انتقال داده میشود [5,8].
هدف از استخراج ویژگی، افزایش کیفیت الگوهای ورودی با استخراج و محاسبه خصوصیات و پارامترهای مربوط به سیگنال ورودی میباشد که منجر به بهبود عملکرد طبقهبندی کننده روی الگوهای ورودی میشود [11]. به عبارت دیگر برای طبقهبندی نمونهها، به مجموعهای از ویژگیها با قابلیت تمایز بالا نیاز است [14,15]. در این مقاله از دو مجموعه ویژگی برای طبقهبندی بدنه اصلی حروف استفاده شدهاست.
برای پنجاه نقطه بدست آمده از مرحله پیشپردازش، تغییرات در راستای افقی (Δx) و تغییرات راستای عمودی (Δy) به عنوان ویژگیهای نقطهای استخراج میشود، که در روابط (3) و (4) قابل مشاهده هستند. شکل (5) تغییرات در راستای افقی و راستای عمودی را برای سه نقطه متوالی نشان میدهد [16].
(1) |
|
(2) |
شکل (5) : ویژگی نقطهای برای سه نقطه متوالی.
زاویه بردار ابتدا به انتهای حرکت قلم، اندازه بردار ابتدا به انتهای حرکت قلم، اندازه حرکت قلم در راستای افقی و اندازه حرکت قلم در راستای عمودی چهار ویژگی استخراج شده از حرکت قلم به عنوان ویژگی سراسری هستند [17]. این ویژگیها در روابط (3) تا (6) مشاهده میشوند. همچنین نحوه استخراج ویژگیهای سراسری برای حروف با یک حرکت قلم و بیش از یک حرکت قلم به ترتیب در شکلهای (6) و (7) مشاهده میشوند.
(3) |
|
(4) |
|
(5) |
|
(6) |
در روابط فوق xminو xmax به ترتیب مقدار حداقل و حداکثر در راستای محور افقی، yminوymax به ترتیب مقدار حداقل و حداکثر در راستای محور عمودی، xstartو xend به ترتیب مقدار نقطه آغازین و نقطه پایانی در راستای محور افقی، ystartوyendبه ترتیب مقدار نقطه آغازین و نقطه پایانی در راستای محور عمودی هستند. همچنین و به ترتیب زاویه ابتدا به انتها[18] و بردار ابتدا به انتها میباشند.
شکل (6) : نحوه استخراج ویژگیهای سراسری برای حروف با یک حرکت قلم.
بردار و زاویه ابتدا به انتها برای حروفی که تعداد حرکات قلم در آنها از یک بیشتر است از جمع بردار و زاویه ابتدا به انتهای اول و دوم مانند شکل (7) بدست میآید.
شکل (7) : نحوه استخراج ویژگیهای سراسری برای حروف با بیش از یک حرکت قلم.
ویژگیهای استخراج شده از ریزحرکات شامل ویژگیهای ساختاری و چند ویژگی استخراج شده از ریزحرکات اول و دوم در صورت وجود میباشد، که عبارتند از:
1. تعداد ریزحرکات (با توجه به شکل (8) میتواند بین «0» تا «3» باشد).
2. تشخیص بالا یا پایین بودن ریزحرکات (اگر ریزحرکت پایین باشد «1-»، اگر ریز حرکت بالا باشد «1» و اگر ریزحرکت موجود نباشد «0» در نظر گرفته میشود).
3. طول حرکت قلم برای ریزحرکت اول و ریزحرکت دوم که از مجموع فاصلههای اقلیدسی جفت نقاط متوالی موجود بدست میآید.
4. بردار و زاویه ابتدا به انتها برای ریزحرکت اول و ریزحرکت دوم.
5. طول حرکت قلم در راستای افقی برای ریزحرکت اول و ریزحرکت دوم.
6. طول حرکت قلم در راستای عمودی برای ریزحرکت اول و ریزحرکت دوم.
لازم به تذکر است که، ویژگیهای استخراج شده 3 تا 6 برای ریزحرکات اول و دوم در صورت وجود استخراج میشود و در غیر اینصورت صفر در نظر گرفته میشود.
بدون ریزحرکت |
|
یک ریزحرکت |
|
دو ریزحرکت |
|
سه ریزحرکت |
شکل (8) : تعداد ریزحرکات.
بالا بودن ابعاد ویژگی مشکلاتی از جمله بالا رفتن زمان اجرا (افزایش هزینه محاسباتی) و افزایش پیچیدگی مساله را به همراه خواهد داشت. روشهای کاهش ابعاد به دو دسته انتخاب ویژگی و استخراج ویژگی تقسیم میشوند. استخراج ویژگی به معنی تبدیل دادههای اولیه با همه متغیرها به یک مجموعه داده با تعداد متغیرهای کمتر و قدرت تفکیکپذیری بالاتر است. در استخراج ویژگی از همه متغیرهای موجود استفاده میشود تا دادهها به وسیله تبدیلی خطی یا غیرخطی به فضای ویژگی با ابعاد کمتر انتقال یابند. بنابراین در استخراج ویژگی هدف ایناست که دادههایی با تعداد متغیر کمتر جایگزین دادههای اولیه شوند. به این معنی که ویژگیها از یک فضای با dبعد به فضایی با kبعد منتقل میشوند که k<dمیباشد.
با استفاده از کاهش ویژگی میتوان مجموعه ویژگیهای مناسب به ویژه برای طبقهبندهای سادهتر فراهم نمود. همچنین از این طریق میتوان اثر مخرب اطلاعات تکراری را کاهش داد.
هدف از تحلیل مولفههای اصلی [19](PCA) ، تولید متغیرهای جدیدی است که اولا ترکیب خطی از متغیرهای اولیه باشند و ثانیا متغیرها همبستگی کمی به یکدیگر داشته باشند. از لحاظ هندسی، تحلیل مولفههای اصلی را میتوان دوران محورهای مختصات اولیه به محورهای عمودی جدید دانست به صورتی که بر اساس واریانس متغیرهای اولیه مرتب شدهاند. یکی از اهداف تحلیل مولفههای اصلی، پیدا کردن گروههای کوچکتری از متغیرهای اساسی است که بتوانند دادهها را توصیف کنند. برای انجام اینکار، میبایست مولفههای اصلی اولیه بتوانند پراکندگی زیادی از دادههای اولیه را تشکیل دهند.
تحلیل جداکننده خطی [20](LDA) از روشهای آماری است. در این روش دادهها روی خطی جهتدار تصویر میشوند که برای طبقهبندی مناسبتر است. به عبارت سادهتر ایده اصلی در تحلیل جداکننده خطی یافتن خطی است که دادهها را از کلاسهای مختلف به صورتی روی آن تصویر شوند که به خوبی قابل تفکیک باشند. تحلیل جداکننده خطی با تحلیل مولفههای اصلی شباهت دارد. از این نظر که، هردوی این روشها برای ترکیب خطی متغیرها به شکلی که داده را به بهترین نحو توضیح بدهد بهکار میروند. تفاوت اصلی تحلیل جداکننده خطی با تحلیل مولفههای اصلی این است که، در تحلیل جداکننده خطی تفاوت کلاسها مدلسازی میشود. به این معنی که اگر تعداد کلاسها برابر C باشد، با استفاده از تحلیل جداکننده خطی بردار ویژگی را میتوان حداکثر بهC-1 تصویر نمود.
همانطور که در بخش قبل اشاره شد 98 ویژگی نقطهای و 4 ویژگی سراسری، در مجموع 102 ویژگی از داده پیشپردازش شده استخراج میشود. که با استفاده از تحلیل جدا کننده خطی (LDA) و تحلیل مولفههای اصلی (PCA) تعداد ویژگیها به 17 کاهش مییابد.
بازشناسی حروف مجزای دستنویس فارسی بهطور همزمان، با شناسایی بدنه اصلی و ریزحرکات انجام میگیرد. بنابراین میبایست دو طبقهبند بهطور همزمان طبقهبندی بدنه اصلی حروف و ریزحرکات را انجام دهند.
در این مقاله پیشنهاد میشود طبقهبندی بدنهی اصلی حروف با استفاده از کاهش ابعاد ویژگی به روش تحلیل جداکننده خطی (LDA) یا تحلیل مولفههای اصلی (PCA) و طبقهبند ماشین بردار پشتیبان (SVM) با رویکرد یک در مقابل یک [21](OVO) انجام شود. همچنین پیشنهاد میشود که طبقهبندی ریزحرکات با استفاده از ماشین بردار پشتیبان (SVM) با رویکرد یک در مقابل یک (OVO) همزمان با بدنه اصلی انجام گیرد. لذا بهمنظور اثبات روش پیشنهادی، روندی در نظر گرفته شدهاست که در ابتدا بدنه اصلی حروف با ویژگیهای نقطهای و طبقهبند ماشین بردار پشتیبان (SVM) با رویکرد یک در مقابل همه [22](OVA) [18] طبقهبندی میشود. سپس با اضافه کردن ویژگیهای سراسری به ویژگیهای نقطهای، عملکرد طبقهبند ماشین بردار پشتیبان (SVM) با رویکرد یک در مقابل همه (OVA) بررسی میشود. در ادامه با استفاده از کاهش ابعاد ویژگی به روش تحلیل جداکننده خطی (LDA) و تحلیل مولفههای اصلی (PCA) ابعاد ویژگی برای بدنه اصلی از 102 ویژگی به 17 ویژگی کاهش مییابد، و بازشناسی با استفاده از طبقهبند ماشین بردار پشتیبان (SVM) با رویکرد یک در مقابل همه (OVA) انجام میشود و مقایسهای بین نتایج دو روش کاهش ابعاد ویژگی مطرح شده انجام میگیرد. در آخر با استفاده از طبقهبند ماشین بردار پشتیبان (SVM) با رویکرد یک در مقابل یک (OVO) [19] مراحل قبلی تکرار میشود و نتایج حاصل از آن بررسی میشود .
همانطور که در ابتدای بخش سوم مطرح شد، بازشناسی حروف مجزای دستنویس فارسی بهطور همزمان، با شناسایی بدنه اصلی و ریزحرکات انجام میگیرد. به این ترتیب که اگر گروه شناسایی شده از بدنه اصلی با گروه شناسایی شده از ریزحرکات همخوانی داشته باشند، بازشناسی نهایی انجام میگیرد، اما اگر همخوانی بین گروه شناسایی شده از بدنه اصلی با ریزحرکات وجود نداشته باشد با استفاده از الگوریتم تصحیح خطا، ناهمخوانی موجود تصحیح میگردد. به عنوان مثال اگر سیستم پیشنهادی بدنه اصلی نمونه ناشناخته را به اشتباه گروه (11) «ق» و ریزحرکت مربوطه را بهطور صحیح (4) «یک نقطه بالا» تشخیص دهد، این ناهمخوانی بین گروه شناسایی شده از بدنه اصلی و ریزحرکات تصحیح شده و به بازشناسی حرف «ف» میانجامد. همچنین اگر سیستم پیشنهادی بدنه اصلی نمونه ناشناخته را به اشتباه گروه (15) «ن» و ریزحرکت مربوطه را بهطور صحیح (1) «بدون ریزحرکت» تشخیص دهد، این ناهمخوانی بین گروه شناسایی شده از بدنه اصلی و ریزحرکات تصحیح شده و به بازشناسی حرف «ل» میانجامد. الگوریتم تصحیح خطای پیشنهادی در صورت بروز ناهمخوانی بوجود آمده از شناسایی بدنه اصلی و ریزحرکات وارد عمل شده و به بازشناسی صحیح کمک میکند.
همچنین سیستم پیشنهادی تا حد قابل قبولی میتواند حروفی که نامتعارف نگارش شدهاند را بازشناسی کند. به عنوان مثال برای حرف «ط» که با یک حرکت قلم نوشته شدهاست، اگر سیستم بدنه اصلی نمونه ناشناخته را گروه (8) «ط،ظ» و ریزحرکت مربوطه را گروه (1) «بدون علامت» تشخیص دهد، با توجه به قدرت بالای طبقهبند استفاده شده برای بدنه اصلی حروف، این نمونه ناشناخته به بازشناسی حرف «ط» منجر میشود. شکل (9) نمودار جعبهای روش پیشنهادی برای بازشناسی برخط حروف مجزای فارسی را نمایش میدهد.
همانطور که در بخش دوم به معرفی پایگاه داده و نگارش حروف پرداخته شدهاست، روش پیشنهادی ارایه شده در این مقاله روی حروف مجزای پایگاه داده
Online-TMU انجام شدهاست.
شکل (9) : نمودار جعبهای روش پیشنهادی برای بازشناسی برخط حروف مجزای فارسی.
نسبت دادههای آموزشی و آزمایشی به کل نمونهها در تمام آزمایشهای انجام شده به ترتیب 7/0 و 3/0 است، که برای ده بار اجرای برنامه و برای هر بار اجرا، به صورت تصادفی میباشد. شایان ذکر است نتایج هر جدول دارای شرایط برابری از نظر تصادفی بودن دادههای آموزشی و آزمایشی برای ده بار اجرا میباشد. لذا برای دهبار اجرای مجزا مقادیر حداقل و حداکثر و میانگین در جدولها ارایه شدهاند. نتایج حاصل از آزمایشها در جدولهای (1) تا (7) گردآوری شده است. لازم به تذکر است که، در تمام جدولها روند بازشناسی بدنه اصلی بررسی میشود و بازشناسی ریزحرکات همانطور که بیان شد با طبقهبند ماشین بردار پشتیبان (SVM) با رویکرد یک در مقابل یک (OVO) انجام میشود. با در طبقهبندی بدنه اصلی حروف، برای SVM با رویکرد OVA و همچنین SVM با رویکرد OVO، همچنین در طبقهبندی ریزحرکات، برای SVM با رویکرد OVO از کرنل گوسی[23] استفاده شده است، که مقدار پارامتر σ به ترتیب برابر 85/3، 7 و 4 انتخاب شدهاست.
جدول (3) : نتایج بازشناسی حروف مجزای دستنویس فارسی با استفاده از طبقهبند SVM با رویکرد OVA برای بدنه اصلی حروف
|
ویژگیهای نقطهای برای بدنه اصلی |
ویژگیهای نقطهای و سراسری برای بدنه اصلی |
||||
|
بازشناسی بدنه |
بازشناسی ریزحرکات |
بازشناسی نهایی |
بازشناسی بدنه |
بازشناسی ریزحرکات |
بازشناسی نهایی |
حداقل |
08/85 |
78/96 |
91/84 |
12/88 |
78/96 |
71/87 |
حداکثر |
38/87 |
43/98 |
06/87 |
10/90 |
43/98 |
29/89 |
میانگین |
50/86 |
52/97 |
18/86 |
35/89 |
52/97 |
79/88 |
جدول (4) : نتایج بازشناسی حروف مجزای دستنویس فارسی با استفاده از طبقهبند SVM با رویکرد OVA و کاهش ابعاد ویژگی به روشهای LDA و PCA برای بدنه اصلی حروف
|
LDA برای بدنه اصلی |
PCA برای بدنه اصلی |
||||
|
بازشناسی بدنه |
بازشناسی ریزحرکات |
بازشناسی نهایی |
بازشناسی بدنه |
بازشناسی ریزحرکات |
بازشناسی نهایی |
حداقل |
00/92 |
03/97 |
59/91 |
98/93 |
03/97 |
24/93 |
حداکثر |
14/94 |
85/97 |
98/93 |
05/95 |
85/97 |
72/94 |
میانگین |
21/93 |
45/97 |
88/92 |
47/94 |
45/97 |
04/94 |
در جدول (3) نتایج حاصل از طبقهبندی بدنه اصلی با استفاده از طبقهبند ماشین بردار پشتیبان (SVM) با رویکرد یک در مقابل همه (OVA)، همچنین طبقهبندی ریزحرکات با استفاده از طبقهبند ماشین بردار پشتیبان (SVM) با رویکرد یک در مقابل یک (OVO) و در آخر بازشناسی نهایی حروف مجزای دستنویس فارسی مشاهده میشود. همانطور که مشاهده میشود، با اضافه شدن ویژگیهای سراسری به ویژگیهای نقطهای میانگین نرخ بازشناسی نهایی بالا رفتهاست و این به جهت بالا رفتن نرخ بازشناسی بدنه اصلی میباشد.
همانطور که پیشتر بیان شد، با بالا رفتن ابعاد ویژگی هزینه محاسباتی (زمان محاسبات) و در نتیجه پیچیدگی مساله افزایش مییابد. بنابراین انتظار میرود با استفاده از کاهش ابعاد ویژگی، زمان محاسبات کاهش یابد و در صورت امکان نرخ بازشناسی بالا رود. جدول (4) مقایسهای بین نتایج حاصل از طبقهبندی بدنه اصلی، ریزحرکات و نرخ بازشناسی نهایی با استفاده کاهش ابعاد ویژگی به روش تحلیل جداکننده خطی (LDA) و تحلیل مولفههای اصلی (PCA) را نشان میدهد، که ویژگیهای بدنه اصلی از 102 ویژگی به جهت مقایسهای صحیح بین دو روش LDA و PCA به 17 ویژگی کاهش یافتهاند. همانطور که مشاهده میشود در روش تحلیل جدا کننده خطی (LDA) و همچنین در روش تحلیل مولفههای اصلی (PCA) میانگین نرخ بازشناسی نهایی بالا رفتهاست و این به جهت بالا رفتن نرخ بازشناسی بدنه اصلی میباشد.
جدول (5) : نتایج بازشناسی حروف مجزای دستنویس فارسی با استفاده از طبقهبند SVM با رویکرد OVO برای بدنه اصلی حروف
|
ویژگیهای نقطهای و سراسری برای بدنه اصلی |
LDA برای بدنه اصلی |
PCA برای بدنه اصلی |
||||||
|
بازشناسی بدنه |
بازشناسی ریزحرکات |
بازشناسی نهایی |
بازشناسی بدنه |
بازشناسی ریزحرکات |
بازشناسی نهایی |
بازشناسی بدنه |
بازشناسی ریزحرکات |
بازشناسی نهایی |
حداقل |
96/95 |
70/96 |
55/95 |
20/97 |
70/96 |
37/96 |
36/97 |
70/96 |
78/96 |
حداکثر |
53/97 |
94/97 |
87/96 |
27/98 |
94/97 |
77/97 |
60/98 |
94/97 |
61/97 |
میانگین |
85/96 |
48/97 |
35/96 |
36/97 |
48/97 |
20/97 |
97/97 |
48/97 |
29/97 |
جدول (6) : زمان تصمیمگیری برای یک نمونه ناشناخته با استفاده از رویکردهای OVA و OVO
|
OVA |
||||||||
|
ویژگیهای نقطهای و سراسری برای بدنه اصلی |
LDA برای بدنه اصلی |
PCA برای بدنه اصلی |
||||||
|
بازشناسی بدنه |
بازشناسی ریزحرکات |
بازشناسی نهایی |
بازشناسی بدنه |
بازشناسی ریزحرکات |
بازشناسی نهایی |
بازشناسی بدنه |
بازشناسی ریزحرکات |
بازشناسی نهایی |
زمان ms)) |
29/11 |
36/4 |
65/15 |
18/10 |
36/4 |
54/14 |
96/9 |
36/4 |
32/14 |
|
OVO |
||||||||
|
ویژگیهای نقطهای و سراسری برای بدنه اصلی |
LDA برای بدنه اصلی |
PCA برای بدنه اصلی |
||||||
|
بازشناسی بدنه |
بازشناسی ریزحرکات |
بازشناسی نهایی |
بازشناسی بدنه |
بازشناسی ریزحرکات |
بازشناسی نهایی |
بازشناسی بدنه |
بازشناسی ریزحرکات |
بازشناسی نهایی |
زمان (ms) |
90/4 |
36/4 |
26/9 |
36/3 |
36/4 |
72/7 |
30/3 |
36/4 |
66/7 |
در جدول (5) نتایج حاصل از طبقهبندی بدنه اصلی با استفاده از طبقهبند ماشین بردار پشتیبان (SVM) با رویکرد یک در مقابل یک (OVO) با استفاده از ویژگیهای اصلی و کاهش ابعاد ویژگی به روش تحلیل جداکننده خطی (LDA) و تحلیل مولفههای اصلی (PCA) و همچنین طبقهبندی ریزحرکات با استفاده از طبقهبند ماشین بردار پشتیبان (SVM) با رویکرد یک در مقابل یک (OVO) و در آخر بازشناسی نهایی حروف مجزای دستنویس فارسی مشاهده میشود، که ویژگیهای بدنه اصلی از 102 ویژگی به 17 ویژگی کاهش یافتهاند. همانطور که مشاهده میشود، استفاده از رویکرد یک در مقابل یک (OVO) برای طبقهبند ماشین بردار پشتیبان (SVM) نسبت به رویکرد یک در مقابل همه (OVA) بالا رفتن نرخ بازشناسی نهایی به جهت بالا رفتن نرخ بازشناسی بدنه اصلی حروف را به همراه خواهد داشت. همچنین میانگین نرخ بازشناسی نهایی به ترتیب در روش تحلیل جداکننده خطی (LDA) و تحلیل مولفههای اصلی (PCA) به جهت بالا رفتن نرخ بازشناسی بدنه اصلی حروف، مشاهده میشود. همانطور که مشاهده میشود، بهترین نرخ بازشناسی نهایی برای حروف مجزای دستنویس فارسی با استفاده از طبقهبند ماشین بردار پشتیبان (SVM) با رویکرد یک در مقابل یک (OVO) برای بدنه اصلی همچنین برای ریزحرکات با استفاده از کاهش ویژگی ابعاد به روش تحلیل مولفههای اصلی (PCA) بدست آمدهاست، که میانگینی برابر با 29/97 درصد دارد.
جدول (6) زمان تصمیمگیری برای یک نمونه ناشناخته را برای بازشناسی بدنه اصلی و ریزحرکات نشان میدهد، مشاهده میشود که استفاده از رویکرد یک در مقابل یک (OVO) برای طبقهبند ماشین بردار پشتیبان (SVM) زمان بازشناسی بدنه اصلی را کاهش دادهاست که منجر به کاهش زمان مجموع میشود. همانطور که انتظار میرود، مشاهده میشود که استفاده از کاهش ابعاد ویژگی به روشهای LDA و PCA زمان تصمیمگیری برای بازشناسی بدنه اصلی را کاهش میدهد.
جدول (7) ماتریس آسیمگی[24] میانگین دهبار اجرای طبقهبند SVM با رویکرد OVO و کاهش ابعاد ویژگی به روش PCA برای طبقهبندی بدنه اصلی را نشان میدهد. اعداد روی قطر اصلی میانگین تعداد نمونههای آزمایشی برای بدنه اصلی حروف که در دهبار اجرای برنامه به درستی طبقهبندی شدهاند را نشان میدهد. شاخصهای دقت یا (نرخ) بازشناسی[25] و قابلیت اطمینان معیارهای مهمی برای ارزیابی عملکرد سیستم میباشند. نرخ بازشناسی میزان عملکرد طبقهبند در تشخیص الگو و قابلیت اطمینان میزان اعتبار تصمیم گرفتهشده توسط طبقهبند را بیان میکنند. همانطور که مشاهده میشود نرخ بازشناسی برای گروههای «ب،پ،ت،ث»، «ج،چ،ح،خ» و «ر،ز،ژ» که اعضای بیشتری دارند بیش از 98 درصد است و با توجه به اینکه سیستم پیشنهادی، تصمیمگیری نهایی را همزمان با توجه به گروه شناسایی شده از بدنه اصلی و ریزحرکات انجام میدهد میتواند با استفاده از شناسایی ریزحرکات بهراحتی بازشناسی نهایی را انجام دهد. همچنین نرخ بازشناسی برای گروه «ا،آ» 100 درصد است و این به این معنی است که سیستم پیشنهادی همهی بدنههای آزمایش شده از این گروه را به درستی تشخیص داده است و میتواند با استفاده از شناسایی ریزحرکات بازشناسی نهایی را بهراحتی انجام دهد. به عنوان مثال، شباهت بدنه اصلی گروه «ف» با گروه «ق» باعث شده تا نرخ بازشناسی برای گروه «ف» به 81/90 درصد کاهش یابد، که باعث میشود سیستم پیشنهادی در تصمیمگیری نهایی با ناهمخوانی بین گروه شناسایی شده از بدنه اصلی و ریزحرکات مواجه شود، سیستم پیشنهادی در مواجهه با این ناهمخوانی، با استفاده از از الگوریتم تصحیح خطا (که در بخش 3-5 ارایه شدهاست) میتواند تا حد قابل قبولی این ضعف را تصحیح کند.
جدول (7) : ماتریس آسیمگی (Confusion) برای میانگین دهبار اجرای طبقهبند بدنه اصلی با استفاده از SVM با رویکرد OVO
خروجی هدف |
ا آ |
ب پ ت ث |
ج چ ح خ |
د ذ |
ر ز ژ |
س ش |
ص ض |
ط ظ |
ع غ |
ف |
ق |
ک گ |
ل |
م |
ن |
و |
ه |
ی |
نرخ بازشناسی(%) |
ا آ |
74 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
100 |
ب پ ت ث |
0 |
6/145 |
0 |
0 |
2/0 |
0 |
0 |
0 |
0 |
0 |
0 |
3/0 |
0 |
0 |
9/0 |
0 |
0 |
0 |
05/99 |
ج چ ح خ |
0 |
0 |
7/142 |
0 |
0 |
0 |
0 |
1/0 |
8/0 |
0 |
0 |
0 |
0 |
3 |
0 |
0 |
1/0 |
0 |
10/99 |
د ذ |
1/0 |
0 |
0 |
2/72 |
6/1 |
0 |
0 |
0 |
0 |
0 |
0 |
1/0 |
0 |
0 |
0 |
0 |
0 |
0 |
57/97 |
ر ز ژ |
5/0 |
0 |
0 |
1 |
4/109 |
0 |
0 |
0 |
0 |
0 |
0 |
1/0 |
0 |
0 |
0 |
0 |
0 |
0 |
56/98 |
س ش |
0 |
1/0 |
0 |
0 |
0 |
5/71 |
0 |
0 |
0 |
0 |
1/0 |
0 |
0 |
0 |
2/0 |
0 |
0 |
1/1 |
95/97 |
ص ض |
0 |
0 |
0 |
0 |
0 |
1/0 |
7/73 |
0 |
0 |
2/0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
59/99 |
ط ظ |
0 |
0 |
0 |
2/0 |
0 |
0 |
0 |
5/73 |
0 |
2/0 |
0 |
1/0 |
0 |
0 |
0 |
0 |
0 |
0 |
32/99 |
ع غ |
2/0 |
0 |
6/0 |
0 |
0 |
0 |
0 |
0 |
2/72 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
90/98 |
ف |
0 |
7/0 |
0 |
0 |
1/0 |
0 |
4/0 |
1/0 |
0 |
6/36 |
7/1 |
4/0 |
0 |
0 |
0 |
0 |
0 |
0 |
81/90 |
ق |
0 |
0 |
0 |
0 |
0 |
0 |
4/0 |
0 |
0 |
1/1 |
35 |
0 |
0 |
0 |
3/0 |
0 |
2/0 |
0 |
59/94 |
ک گ |
0 |
7/0 |
0 |
1/0 |
0 |
8/0 |
0 |
2/0 |
0 |
0 |
0 |
3/69 |
0 |
0 |
0 |
1/0 |
0 |
8/0 |
25/96 |
ل |
0 |
0 |
0 |
0 |
1/0 |
0 |
0 |
0 |
0 |
0 |
0 |
1/0 |
9/34 |
0 |
9/0 |
0 |
5/0 |
5/0 |
32/94 |
م |
0 |
0 |
3/0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
5/36 |
0 |
2/0 |
0 |
0 |
65/98 |
ن |
0 |
8/0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
2/36 |
0 |
0 |
0 |
84/97 |
و |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
4/0 |
1/0 |
0 |
0 |
0 |
0 |
0 |
0 |
5/37 |
0 |
0 |
69/98 |
ه |
0 |
0 |
0 |
3/0 |
0 |
0 |
0 |
4/0 |
0 |
0 |
0 |
0 |
3/0 |
0 |
0 |
0 |
35 |
0 |
22/97 |
ی |
0 |
0 |
4/0 |
0 |
7/0 |
5/0 |
1/0 |
0 |
0 |
0 |
0 |
2/0 |
0 |
0 |
0 |
1/0 |
4/0 |
6/35 |
68/93 |
قابلیت اطمینان(%) |
93/98 |
44/98 |
10/99 |
83/97 |
59/97 |
08/98 |
79/98 |
39/98 |
77/98 |
73/95 |
11/95 |
16/98 |
15/99 |
18/99 |
03/94 |
94/98 |
69/96 |
68/93 |
97/97 59/97 |
در این تحقیق روشی جدید برای بازشناسی برخط حروف مجزای دستنویس فارسی ارایه شد. در روش ارایه شده از دانش مربوط به بدنه اصلی حروف و ریزحرکات بهطور همزمان استفاده شدهاست. به این ترتیب که در صورت همخوانی گروه شناسایی شده از بدنه اصلی و ریزحرکات نمونه ناشناخته تشخیص داده میشود و در غیر اینصورت با استفاده از الگوریتم تصحیح خطا ناهمخوانی پیشآمده تا حد امکان تصحیح میگردد. استفاده همزمان از دانش مربوط به بدنه اصلی و ریزحرکات شرایطی را فراهم میآورد که تصمیمگیری اولیه و همچنین تصمیمگیری نهایی برای تعیین کلاس خروجی از اعتبار بیشتری برخوردار باشد. با توجه به نرخ بازشناسی مناسب برای طبقهبندهای مربوط به بدنه اصلی و ریزحرکات، در صورت همخوانی بین گروه شناسایی شده از بدنه اصلی و ریزحرکات، نرخ بازشناسی اولیه برای تعیین کلاس خروجی میزان قابل توجهی دارد و همچنین تصمیمگیری با اطمینان بیشتری انجام میپذیرد. همچنین در صورت بروز ناهمخوانی بین گروه شناسایی شده از بدنه اصلی و ریزحرکات، ناهمخوانی پیشآمده توسط عملیات پسپردازش با تکیه بر تصمیم گرفتهشده توسط از یکی طبقهبندها تاحد امکان تصحیح میگردد. به نظر میرسد استفاده همزمان از دانش مربوط به بدنه اصلی حرکت قلم و ریزحرکات برای بازشناسی کلمات و زیرکلمات نیز مفید باشد.
با استخراج ویژگیهای نقطهای و استخراج چند ویژگی سراسری و با استفاده از طبقهبند ماشین بردار پشتیبان (SVM) با رویکرد یک در مقابل یک (OVO) برای طبقهبندی بدنه اصلی و ریزحرکات، بازشناسی حروف مجزای دستنویس فارسی انجام میشود. نتایج آزمایشها حاکی از آناست که، استفاده از کاهش ابعاد ویژگی برای بدنه اصلی حروف، و به صورت همزمان در نظر گرفتن انواع ریزحرکات نتایج مطلوبتری از نظر سرعت انجام محاسبات و همچنین نرخ بازشناسی نهایی به دنبال دارد.
[1] Reliability
[2] Tarbiat Modarres University
[3] Off-line
[4] On-line
[5] Hidden Markov Model
[6] Classification
[7] Support Vector Machine
[8] Decision Tree
[9] Fuzzy
[10] Tablet Digitizer
[11] Preprocessing
[12] Feature Extraction
[13] Dimensionality Reduction
[14] Post Processing
[15] Preprocessing
[16] Feature Extraction
[17] Dimensionality Reduction
[18] star to end
[19] Principle Component Analysis
[20] Linear Discriminate Analysis
[21] One Versus One
[22] One Versus All
[23] Gaussian Radial Basis Function kernel
[24] Confusion Matrix