Offline Identification of the Author using Heterogeneous Data based on Deep Learning

Document Type : Research Article

Authors

Ph.D. Student, Department of IT and Computer Engineering, Urmia Branch, Islamic Azad University, Urmia, Iran.

Abstract

Handwriting recognition has always been a challenge; therefore, it has attracted the attention of many researchers. The present study presents an offline system for the automatic detection of human handwriting under different experimental conditions. This system includes input data, image processing unit, and output unit. In this study, a right-to-left dataset is designed based on the standards of the American Society for Experiments and Materials (ASTM). An improved deep convolution neural network (DCNN) model based on a pre-trained network is designed to extract features hierarchically from raw handwritten data. A significant advantage in this study is the use of heterogeneous data. Another significant aspect of the present study is that the proposed DCNN model is independent of any particular language and can be used for different languages. The results show that the proposed DCNN model has a very good performance for identifying the author based on heterogeneous data.

Keywords

Main Subjects


  • مقدمه[1]

در طول زمان‌های گذشته، از دستخط برای ایجاد ارتباط میان مردم استفاده شده که شامل نمادهایی برای نمایش زبان‌های مختلف است [1-2]. دست‌نوشته‌ها ویژگی‌های قابل اندازه‌گیری دارند که می‌توانند نویسندگان را توصیف کنند [3]. شناسایی دست‌نوشته‌ها یکی از فعال‌ترین حوزه‌های تحقیقاتی در زمینة بینایی ماشین و پردازش الگو است. از کاربردهای تشخیص دست‌نوشته‌ها می‌توان به دسته‌بندی نامه‌های پستی، خواندن خودکار مبالغ چک‌های بانکی، شناسایی خودکار اطلاعات ثبت‌شده در فرم‌ها، شناسایی اسناد دست‌نویس جعلی و غیره اشاره کرد. در تمامی این کاربردها، همواره مسئله دقت و سرعت سیستم اهمیت بسیار زیادی داشته است. جرم جعل در اسناد دست‌نویس به سرعت درحال‌رشد است؛ بنابراین، شناسایی اسناد دست‌نویس جعلی به‌عنوان یک مشکل بسیار حیاتی برای سازمان‌های دولتی (مانند دادگستری و دفاتر ثبت اسناد) در نظر گرفته می‌شود. به‌طور کلی، شناسایی اسناد جعلی پیچیدگی زیادی دارد. روش عملی در کشف اسناد جعلی شامل دو مرحله است؛ به دست آوردن نمونه‌های دستخط از مظنونین و استخراج تفاوت بین ویژگی‌های دستخط. تمامی روش‌ها بر پایة استخراج ویژگی‌ها از سند اصلی و مقایسة آنها با سند جعلی استوار است. ویژگی‌های دستخط به سبک‌های نوشتاری زبان بستگی دارد. این به‌عنوان یک نشانة اساسی در تجزیه و تحلیل اسناد دست‌نویس در نظر گرفته می‌شود.

بیشتر محققان زبان انگلیسی را برای تجزیه و تحلیل اسناد دست‌نویس انتخاب کرده‌اند [4-5]. با این حال، تعداد کمی از محققان روی زبان‌های راست به چپ مانند عربی، فارسی، اردو و غیره تمرکز کرده‌اند؛ بنابراین، مجموعه داده‌های استاندارد بسیار کمی در زبان‌های راست به چپ وجود دارد. زبان‌های راست به چپ به‌طور گسترده در میان اقشار مختلفی از مردم جهان استفاده می‌شوند و ازنظر چگونگی پیوند چند حرف با یکدیگر سبک نوشتاری خاصی دارند. مشکل اصلی در تحلیل دست‌نوشته‌های راست به چپ، کمبود مجموعه داده‌های جامع است. مجموعه داده‌ها شامل انواع حروف، کلمات، جملات، اعداد و انواع مختلف اتصالات است. یک دلیل و توجیه خلأ تحقیق دربارة زبان‌های راست به چپ این است که آنها از روش‌های پیچیده‌ای برای اتصال حروف استفاده می‌کنند؛ ازاین‌رو، آنها به‌عنوان سبک‌های نوشتاری ناشناخته و کم مطالعه باقی مانده‌اند.

به‌طور کلی، مطالعات تحقیقاتی در زمینة اسناد دست‌نویس، به سه گروه عمده طبقه‌بندی می‌شوند: تشخیص دستخط1، شناسایی نویسنده2 و تأیید نویسنده3. نیاز سازمان‌های دولتی (مانند دادگستری و دفاتر ثبت اسناد) عمدتاً مربوط به شناسایی و تأیید نویسنده است. شناسایی و تأیید نویسنده معمولاً توسط متخصصان براساس شناسایی بصری انجام می‌شوند که این کار زمان‌بر، خسته‌کننده و نادرست است. مطالعات تحقیقاتی بسیاری برای حل این مشکلات انجام شده‌اند. برخی از مطالعات بر پایة رویکردهای سنتی یادگیری ماشین و برخی دیگر بر پایة رویکردهای جدید یادگیری ماشین، مانند یادگیری عمیق [6-7] استوارند. بسیاری از محققان روش‌های طبقه‌بندی را برای مسئله شناسایی نویسنده پیشنهاد داده‌اند [8-9]. استخراج ویژگی در یادگیری ماشین نقشی اساسی دارد و یک زمینه مهم در ادبیات فن محسوب می‌شود. در رویکردهای سنتی یادگیری ماشین، مراحل استخراج و طبقه‌بندی ویژگی‌ها از یکدیگر جدا هستند؛ در حالی که در رویکردهای جدید یادگیری ماشین، این مراحل با هم ادغام شده‌اند. این رویکردها، برخلاف رویکردهای سنتی، نیازی به دانش قبلی از مسئله ندارند و می‌توانند به‌صورت سلسله‌مراتبی ویژگی‌های مطلوب را از داده‌های خام استخراج کنند. به‌طور کلی، تشخیص دست‌نوشته‌ها به‌صورت مرسوم به دو دسته آنلاین (برخط) و آفلاین (غیر برخط) تقسیم می‌شوند. در تشخیص آنلاین ترتیب زمانی از مختصات‌ها دریافت می‌شود که بیان‌کنندة حرکات نوک قلم شخص است؛ در حالی که در روش‌های آفلاین تنها تصویر متن در دسترس است [10-11].

آوایدا و همکاران [12] یک روش شناسایی نویسنده بر پایة متون عربی با استفاده از ویژگی‌های آماری و ساختاری ارائه دادند. در این روش الگوریتم نزدیک‌ترین همسایه به همراه معیارهای فاصله اقلیدسی استفاده شد. همچنین، از الگوریتم‌های کاهش داده، برای کاهش ابعاد داده استفاده شد. دویست و پنجاه نویسنده، یک پایگاه دادة 500 پاراگرافی را به زبان عربی نوشته‌اند. نتایج نشان‌دهندة عملکرد مطلوب روش بیان‌شده در شناسایی نویسنده بود. شهابی و همکاران [13] روشی را برای شناسایی آفلاین اسناد فارسی دست‌نویس با استفاده از فیلتر چندکاناله گابور4 ارائه دادند. این روش می‌توانست ویژگی‌ها را استخراج کند و یک مجموعه دادة محدود را با توجه به معیارهای فاصله اقلیدسی طبقه‌بندی کند. با روش بیان‌شده عملکرد خوبی دربارة اسناد دست‌نویس فارسی حاصل شد. باغساه و همکاران [14] روش جدیدی را برای شناسایی آنلاین (برخط) دست‌نوشته‌های فارسی ارائه دادند. در روش بیان‌شده، ویژگی‌ها با توجه به معیارهای فاصله اقلیدسی استخراج شدند و پس از آن یک طبقه‌بند فازی برای شناسایی اسناد دست‌نویس استفاده شد. این روش به دست‌نوشته‌های زبان فارسی اعمال شد و در مقایسه با سایر رویکردهای موجود به صحت بالاتری از شناسایی دست یافت. احمد و همکاران [4] یک طبقه‌بند مبتنی بر فاصله را با مجموعه‌ای از ویژگی‌های استخراج‌شده با الگوریتم مور5 به‌منظور شناسایی آفلاین نویسنده بررسی کردند. این روش به چهار مجموعه دادة جامع اعمال شد و به میزان دقت چشمگیری در شناسایی اسناد دست‌نویس دست یافت. وو و همکاران [15] روش شناسایی آفلاین متون را بر پایة طبقه‌بند مبتنی بر فاصله پیشنهاد کردند. در این مطالعه برای استخراج ویژگی‌های ساختاری از شش مجموعه دادة مختلف، از فیلتر ایزوتروپیک استفاده شد. سه مورد از این مجموعه داده‌ها مربوط به زبان انگلیسی، یکی مربوط به زبان چینی و دو مورد دیگر مربوط به ترکیبی از این زبان‌ها بود. نتایج تجربی نشان دادند روش بیان‌شده در شناسایی متون بهتر از سایر روش‌های مقایسه‌ای عمل می‌کند. کومار و همکاران [16] یک روش شناسایی آفلاین دستخط را بررسی کردند. در این مطالعه، پنج نوع ویژگی استخراج‌شده از متن‌های دست‌نویس ارزیابی شدند. برای کاهش ابعاد ویژگی‌ها، از روش تجزیه و تحلیل خطی فیشر6 و آنالیز اجزای اصلی7 استفاده شد. با استفاده از ماشین بردار پشتیبان8 (SVM) و شبکۀ عصبی کارایی روش بیان‌شده تأیید شد. روش‌های شناسایی نویسنده مبتنی بر یادگیری ماشین سنتی به‌طور گسترده استفاده شده‌اند؛ اما مشکلات متعددی دارند. برخی از این مشکلات عبارت‌اند از وابسته‌بودن به دانش تخصصی، حساسیت به تغییرات شرایط محیطی و محدودیت‌ استخراج ویژگی‌های جدید. براساس مشکلات بیان‌شده، لازم است روش‌های خودکار شناسایی نویسنده براساس رویکردهای جدید یادگیری ماشین، مانند رویکردهای یادگیری عمیق بررسی شوند که ویژگی‌های مطلوب مربوط به هر مسئله را ازطریق داده‌های خام به‌صورت سلسله‌مراتبی می‌توانند بیاموزند [6-7].

منچالا و همکاران [17] سیستمی را برای شناسایی دستخط با استفاده از یادگیری عمیق ارائه دادند. این سیستم برای یافتن شباهت‌ها و همچنین تفاوت‌ها در میان نمونه‌های مختلف دستخط آموزش دید. در این سیستم تصاویر دست‌نویس به متون دیجیتالی تبدیل شدند. نتایج نشان دادند این سیستم برای متن‌هایی که نویز کمتری دارند بهترین دقت را ارائه می‌دهد. همچنین دقت سیستم بیان‌شده کاملاً به مجموعه داده بستگی دارد و در صورت افزایش داده‌ها می‌توان با این سیستم به دقت بیشتری دست یافت. آداک و همکاران [8] روش شناسایی و تأیید نویسنده را از دست‌نوشته‌های آفلاین بنگالی9 بررسی کردند. در این روش، برخی از ویژگی‌های مهندسی از این دست‌نوشته‌ها، استخراج و با استفاده از مدل ماشین بردار پشتیبان ارزیابی شدند. ویژگی‌های خودکار با استفاده از مدل شبکۀ عصبی کانولوشنال عمیق10 (DCNN) نیز از این دست‌نوشته‌ها استخراج شدند. در این مطالعه دو پایگاه داده از دو مجموعه مختلف با 100 نویسنده برای آزمایش طراحی شدند. پس از آزمایش مشاهده شد مدل شبکۀ عصبی کانولوشنال عمیق در مقایسه با سایر مدل‌ها نتایج بهتری ارائه می‌دهد. ژانگ و همکاران [18] یک شبکۀ عصبی بازگشتی11 (RNN) را برای شناسایی آنلاین نویسنده بررسی کردند. داده‌های دست‌نویس هر نویسنده با مجموعه‌ای از RHSها12 نشان داده شدند. از یک مدل شبکۀ عصبی با حافظه کوتاه‌مدت دو جهته برای رمزگذاری هر RHS (در یک بردار با طول ثابت) برای طبقه‌بندی استفاده شد. آزمایش‌های مربوطه روی مجموعه داده‌های انگلیسی (133 نویسنده) و چینی (186 نویسنده) انجام و مزایای روش آنها در مقایسه با سایر روش‌های پیشرفته تأیید شدند. کاربون و همکاران [19] یک سیستم تشخیص آنلاین دستخط را ارائه دادند که می‌تواند 102 زبان مختلف را با استفاده از شبکۀ عصبی عمیق13 پشتیبانی کند. این سیستم روش‌های شناسایی متوالی را با رمزگذاری جدید ورودی با استفاده از منحنی‌های Bézier ترکیب کرده است. نتایج نشان دادند سیستم بیان‌شده در مقایسه با روش‌های دیگر نتایج بهتری ارائه می‌دهد. جاویدی و همکاران [20] روشی را برای شناسایی نویسنده (مستقل از متن) بر پایة یادگیری عمیق ارائه دادند. در این مطالعه یک نسخة توسعه‌یافته از ResNet با ترکیب شبکه‌های residual عمیق و یک توصیف‌کنندة دستخط سنتی برای تجزیه و تحلیل دستخط استفاده شده است. توصیف‌کننده ضخامت دستخط را به‌عنوان یک ویژگی اولیه و ضروری دستخط تجزیه و تحلیل می‌کند. این روش می‌تواند هویت نویسنده مستقل از متن را ارائه دهد که برای یادگیری مدل خود نیازی به محتوای دست‌نویس یکسان ندارد. رویکرد پیشنهادی روی مجموعه داده‌های عمومی و مشهور ارزیابی شد. نتایج نشان دادند شبکة ترکیبی پیشنهادی نسبت به روش‌های مقایسه‌ای بهتر عمل می‌کند و می‌تواند برای برنامه‌های کاربردی در دنیای واقعی استفاده شود. یانگ و همکاران [21] یک روش یادگیری عمیق را برای شناسایی نویسنده بر پایة زبان چینی با استفاده از ترکیب ویژگی‌ها ارائه دادند. در این مطالعه از ترکیب ویژگی‌های عمیق و ویژگی‌های دستی برای به دست آوردن ویژگی‌های دستخط از تصاویر دست‌نویس استفاده شد. نتایج نشان دادند این روش عملکرد بهتری در شناسایی حروف چینی نسبت به سایر روش‌های مقایسه‌ای دارد. وانگ و همکاران [22] یک روش شناسایی خودکار نویسنده را بر پایة یادگیری عمیق ارائه دادند. در این مطالعه، ترکیبی از شبکه‌های u-net و resnet به‌عنوان مدل پیشنهادی در نظر گرفته شد. روش پیشنهادی آنها روی مجموعه دادة ICDAR17 ارزیابی شد و نتایج بهتری نسبت به مدل‌های مقایسه‌ای ارائه داد.

بررسی مطالعات شناسایی نویسنده نشان می‌دهد اگرچه تاکنون مطالعات زیادی در این زمینه انجام شده است، محدودیت‌هایی در این مطالعات وجود دارد. در بیشتر این مطالعات، از روش‌های سنتی مبتنی بر استخراج و انتخاب ویژگی‌ها برای شناسایی نویسنده استفاده شده است. علاوه بر این، در بیشتر این مطالعات شرایط محیطی مختلف در تهیه پایگاه داده‌های مختلف در نظر گرفته نشده است؛ در صورتی که برای ورود به حوزة کاربردی، در نظر گرفتن کلیه شرایط محیطی ضروری است. بر‌اساس این، اولین هدف این مقاله ارائه یک سیستم شناسایی آفلاین نویسنده در شرایط آزمایشی مختلف است که مستقل از هر زبانی باشد. همچنین، با بررسی مطالعات پیشین مشاهده می‌شود مجموعه دادة جامعی در رابطه با دست‌نوشته‌های راست به چپ وجود ندارد که بتواند به‌عنوان یک مجموعه پایگاه دادة مرجع برای بررسی زبان‌های راست به چپ استفاده شود. درواقع دست‌نوشته‌های راست به چپ به‌طور عمده در مطالعات مرتبط نادیده گرفته شده‌اند. براساس این، در دومین هدف این مطالعه، تلاش شده است با تمرکز بر شناسایی نویسنده براساس دست‌نوشته‌های راست به چپ، این شکاف تحقیقاتی بررسی شود که به‌عنوان یک موضوع بسیار مهم و بحث‌برانگیز در سازمان‌های دولتی (مانند دادگستری و دفاتر ثبت اسناد) شناخته می‌شود. برای این منظور، یک مجموعه دادة راست به چپ شامل کلمات، جملات و اعداد جمع‌آوری شده است. این مجموعه داده شامل 86304 نمونه از افراد مختلف با جنسیت، گروه سنی، شغل و سطح تحصیلات مختلف است. این مجموعه داده در فواصل زمانی مختلف در شرایط آزمایشی مختلف براساس استانداردهای آمریکایی (ASTM) جمع‌آوری شده است [23]. همچنین، یادگیری عمیق به‌طور گسترده و با موفقیت زیادی در تجزیه و تحلیل تصاویر و سیگنال‌ها استفاده شده است. در سومین هدف این مقاله، یک مدل شبکۀ عصبی کانولوشن عمیق بهبودیافته بر پایة شبکه از پیش آموزش‌دیده14 طراحی شده است تا ویژگی‌ها را به‌صورت سلسله‌مراتبی از داده‌های خام دستخط یاد بگیرد. مهم‌ترین جنبة مدل پیشنهادی قابلیت آن در طبقه‌بندی مجموعه داده‌های نامتجانس است؛ به این معنا که در هر دوره، اگرچه نمونه‌های تصادفی برای مراحل آموزش و ارزیابی، به یک شخص خاص تعلق داشته است، ممکن است لزوماً یکسان نباشند؛ حتی ممکن است هیچ شباهتی نداشته باشند. استفاده از نمونه‌های نامتجانس چهارمین هدف این مقاله است که به‌طور عمده در مطالعات قبلی نادیده گرفته شده است. درواقع، این نوآوری در روش شناسایی، برجسته‌ترین جنبة مطالعة حاضر است.

ادامة مقاله به‌صورت زیر تدوین شده است؛ در بخش 2، شبکه‌‌های عصبی کانولوشنال و بازگشتی بررسی می‌شوند. در بخش 3، روش پیشنهادی برای شناسایی نویسنده ارائه می‌شود. در بخش 4 نتایج شبیه‌سازی بررسی می‌شوند و درنهایت، بخش 5 مربوط به نتیجه‌گیری است.

2- مواد و روش‌ها

در این بخش ابتدا شبکه‌‌های عصبی کانولوشنال15 (CNN) و پس از آن، شبکه‌های حافظه طولانی کوتاه‌مدت16 (LSTM) بررسی می‌شوند که زیرمجموعه‌ای از شبکه‌های عصبی بازگشتی‌اند.

 

2-1- شبکه‌های عصبی کانولوشنال

شبکۀ عصبی کانولوشنال، درواقع یک شبکۀ عصبی بهبودیافته است. در این شبکه، چندین لایه با روشی قدرتمند در کنار هم آموزش می‌بینند [24]. این روش، بسیار کارآمد بوده و یکی از رایج‌ترین روش‌ها در کاربردهای مختلف بینایی ماشین است. همانند شبکه‌های عصبی مصنوعی17، تصمیم خروجی نهایی شبکۀ عصبی کانولوشنال براساس وزن و بایاس لایه‌های قبلی در ساختار شبکه است.

در این شبکه، دو مرحله برای آموزش وجود دارد؛ مرحلة انتشار پیش‌رو18 و مرحلة پس‌انتشار19 (BP) [25]. BP  روشی برای محاسبة گرادیان تابع اتلاف نسبت به وزن‌ها است. BP سیگنال‌های خطا را در شبکه حین آموزش پس می‌زند و باعث به‌روزرسانی وزن‌ها می‌شود. در مرحلة اول، داده‌های ورودی به شبکه اعمال می‌شوند و این عمل چیزی به‌جز ضرب نقطه‌ای بین ورودی و پارامترهای هر نورون و اعمال عملیات کانولوشن در هر لایه نیست و درنهایت، خروجی شبکه محاسبه می‌شود. به‌منظور تنظیم پارامترهای شبکه یا به عبارت دیگر آموزش شبکه، از نتیجة خروجی برای محاسبة میزان خطای شبکه استفاده می‌شود. برای این کار، خروجی شبکه با استفاده از یک تابع خطا20 با پاسخ صحیح، مقایسه و به این ترتیب، میزان خطا محاسبه می‌شود. در مرحلة بعد، براساس میزان خطای محاسبه‌شده، مرحلة پس‌انتشار آغاز می‌شود. در این مرحله، گرادیانت هر پارامتر با توجه به قاعدة زنجیره‌ای محاسبه می‌شود و تمامی پارامترها، با توجه به تأثیرشان بر خطای ایجادشده در شبکه، به‌روزرسانی می‌شوند. بعد از به‌روزرسانی پارامترها، مرحلة بعدی انتشار پیش‌رو آغاز خواهد شد. بعد از تکرار تعداد مناسبی از این مراحل، آموزش شبکه به پایان می‌رسد. در این شبکه، خروجی هر لایه همان ویژگی‌ها هستند که بعد کمتری نسبت به دادة اصلی دارند.

به‌طور کلی، یک شبکه کانولوشنال از سه لایه اصلی تشکیل می‌شود که عبارت‌اند از لایه کانولوشنال، لایه ادغام21 و لایه تمام متصل22 (FC) [24]. برای جلوگیری از فرایند بیش‌برازش23 و بهبود عملکرد شبکه از لایه‌های حذف تصادفی24 و نرمال‌ساز دسته‌ای25 نیز استفاده می‌شود. همچنین در شبکه‌های عصبی نیاز است پس از هر لایه از تابع فعال‌سازی استفاده شود که در ادامه، این لایه‌ها و توابع به‌طور خلاصه معرفی می‌شوند.

لایه کانولوشنال: شامل فیلترهایی (کرنل‌هایی) است که روی داده‌های ورودی می‌لغزند. یک کرنل، یک ماتریس است که با دادة ورودی کانوالو می‌شود. این لایه عمل کانولوشن را روی داده‌های ورودی با استفاده از کرنل انجام می‌دهد. خروجی کانولوشن را نگاشت ویژگی می‌نامند. عملگر کانولوشن به شرح زیر است:

(1)

 

 

که x سیگنال، h فیلتر، N تعداد عناصر در x و y بردار خروجی است.

لایه ادغام: این لایه که به کاهش نمونه26 نیز معروف است، ابعاد نورون‌های خروجی از لایه کانولوشنال را کاهش می‌دهد و باعث کاهش محاسبات و همچنین جلوگیری از پدیدة بیش‌برازش می‌شود. در این پژوهش از لایه ادغام بیشینه27 استفاده شده که فقط مقادیر بیشینه در هر نگاشت ویژگی را انتخاب کرده است و باعث کاهش تعداد نورون‌های خروجی می‌شود.

لایه FC: دارای اتصال کامل به تمامی فعال‌سازی‌ها در لایه قبلی است.

لایه حذف تصادفی: از این لایه به‌منظور جلوگیری از پدیدة بیش‌برازش استفاده می‌شود [25]. نحوة کار آن به این صورت است که در هر مرحله از آموزش، هر نورون با احتمالی از شبکه بیرون انداخته شده است؛ به طوری که درنهایت، یک شبکه کاهش داده شده باقی می‌ماند.

لایه نرمال‌سازی دسته‌ای: این لایه به‌منظور نرمال‌سازی داده‌ها در داخل شبکه انجام می‌شود [26]. زمانی که محاسبات مختلف روی دادة ورودی اعمال شود، توزیع داده‌ها تغییر خواهد کرد. این لایه با هدف کاهش تغییر کوواریانس داخلی، سرعت آموزش شبکه را افزایش می‌دهد و باعث تسریع در همگرایی می‌شود. تبدیل لایه نرمال‌سازی دسته‌ای به شرح زیر است:

 

(2)

 

 

که  و به‌ترتیب میانگین و واریانس دسته هستند.  یک ثابت کوچک برای ثبات عددی، شماره لایه،  بردار ورودی به لایه نرمال‌ساز و بردار خروجی نرمال مربوط به یک نورون است و و به‌ترتیب پارامترهای مربوط به مقیاس و تغییر نرخ یادگیری‌اند.

تابع فعال‌سازی: پس از هر لایه کانولوشن، یک تابع فعال‌سازی اعمال می‌شود. تابع فعال‌سازی یک عملگر است که خروجی را به مجموعه‌ای از ورودی‌ها نگاشت می‌کند و برای غیرخطی‌کردن ساختار شبکه استفاده می‌شود [27]. تابع Relu یکی از پرکاربردترین توابع فعال‌سازی است و این ویژگی را دارد که غیرخطی‌بودن را به ساختار شبکه اعمال کند؛ بنابراین، در برابر تغییرات جزئی در ورودی مقاوم است. رابطه 3 تابع Relu را نشان می‌دهد.

(3)

 

 

تابع سافت‌مکس28: این تابع توزیع احتمالی کلاس‌های خروجی را محاسبه می‌کند که رابطه آن به فرم زیر است:

(4)

 

 

که در آن، x ورودی شبکه است و مقادیر خروجی p بین صفر و یک هستند که مجموع آنها برابر با یک است.

 

2-2- شبکه‌های عصبی بازگشتی

شبکه‌های عصبی بازگشتی شاخه‌ای مهم از شبکه‌‌های عصبی عمیق‌اند که به‌منظور تحلیل سیستم‌های پیچیده استفاده می‌شوند. این شبکه‌ها می‌توانند با کاهش ابعاد دادة ورودی ، بار محاسباتی را کاهش دهند و همچنین باعث بهبود عملکرد آموزش شوند. علاوه بر این، این شبکه‌ها امکان تلفیق اطلاعات بین ورودی‌های مختلف را به‌منظور دستیابی به ویژگی‌هایی فراهم می‌کنند که نمی‌توان با استفاده از روش‌های سنتی استخراج کرد [28-30]. شبکه حافظه طولانی کوتاه‌مدت ازجمله شبکه‌های عصبی بازگشتی‌اند که به‌منظور رفع ضعف‌های شبکه‌های بازگشتی ازجمله حل مشکل پراکندگی گرادیان یا مشکلات انفجاری گرادیان به کار برده می‌شوند [28-30]. برخلاف شبکۀ عصبی بازگشتی که صرفاً جمع متوازن سیگنال‌های ورودی را محاسبه می‌کند و سپس از یک تابع فعال‌ساز عبور می‌دهد، هر واحد LSTM از یک حافظه Ct در زمان t بهره می‌برد. یک سلول حافظه از چهار عنصر اصلی تشکیل شده است: یک دروازه ورودی یا دروازه به‌روزرسانی ، یک نورون با اتصال خودبازگشتی، یک دروازه فراموشی  و یک دروازه خروجی . فعال‌سازی واحد LSTM به‌صورت رابطه زیر تعریف می‌شود [28-30]:

(5)

 

 

که در آن،  دروازه خروجی و کنترل‌کنندة میزان محتوایی است که ازطریق حافظه ارائه می‌شود. دروازه خروجی با رابطه زیر محاسبه می‌شود [28-30]:

(6)

 

 

که در آن،  تابع فعال‌سازی سافت‌مکس است و و  به‌ترتیب ماتریس وزن و بردار بایاس اولیه‌اند. سلول حافظه  نیز با فراموشی نسبی حافظه فعلی و اضافه‌کردن محتوای حافظه جدید به‌صورت  از رابطه (8) به‌روزرسانی می‌شود که در آن، محتوای حافظه جدید از رابطه (7) به دست می‌آید [28-30]:

(7)

 

(8)

 

 

میزان حافظه فعلی که باید فراموش شود، توسط دروازه فراموشی کنترل می‌شود و مقدار حافظه جدید که باید به سلول حافظه اضافه شود، توسط دروازه به‌روزرسانی (دروازه ورودی)  انجام می‌گیرد. این عملیات در رابطه‌های (9) و (10) نشان داده شده است [28-30]:

 

(9)

 

(10)

 

 

شکل 1 ساختار یک شبکۀ عصبی بازگشتی LSTM را نشان می‌دهد. در این شبکه که یک ورودی یا همان  دارد، دو خروجی تولید می‌شود: یک خروجی  و خروجی دیگر ؛  به دو بخش تقسیم می‌شود؛ بخشی به گام زمانی بعد، منتقل و بخشی نیز در صورت نیاز به تولید خروجی در گام زمانی فعلی استفاده می‌شود. دروازه فراموشی  وظیفة کنترل جریان اطلاعات از گام زمانی قبلی را دارد. این دروازه مشخص می‌کند آیا اطلاعات حافظه از گام زمانی قبل استفاده شود یا خیر و اگر باید از گام زمانی قبل چیزی وارد شود، به چه میزان باشد. دروازه به‌روزرسانی  وظیفة کنترل جریان اطلاعات جدید را بر عهده دارد. این دروازه مشخص می‌کند آیا در گام زمانی فعلی باید از اطلاعات جدید استفاده شود یا خیر و اگر بلی به چه میزان. دروازه خروجی نیز مشخص می‌کند چه میزان از اطلاعات گام زمانی قبل با اطلاعات گام زمانی فعلی به گام زمانی بعد منتقل شود.

 

  • روش پیشنهادی

در این بخش، روش پیشنهادی مقاله ارائه می‌شود. شکل 2 بلوک دیاگرام الگوریتم پیشنهادی را نشان می‌دهد.

 

  • جمع‌آوری داده‌ها

در روش پیشنهادی یک پایگاه دادة جامع طراحی و توسعه داده شده است. همچنین، در این مطالعه علاوه بر پایگاه دادة طراحی‌شده از پایگاه داده‌های IAM، CVL، KHATT و IFN/ENIT نیز استفاده شده است تا روش پیشنهادی بهتر ارزیابی شود. پایگاه دادةIAM  [31] شامل 4899 نمونه از 150 نویسنده و پایگاه دادة CVL [32] شامل 1854 نمونه از 309 نویسنده به زبان انگلیسی است. پایگاه دادةKHATT  [33] شامل 10898 نمونه از 828 نویسنده و پایگاه دادة IFN/ENIT [34] شامل 26459 نمونه از 411 نویسنده به زبان عربی است. این پایگاه‌ داده‌ها در مطالعات اخیر بسیار استفاده شده‌اند و در زمینة شناسایی نویسنده از پایگاه داده‌های قابل اعتماد و پرکاربرد هستند.

در پایگاه دادة پیشنهادی، بر پایة استانداردهای ASTM، نمونه‌های دستخط از 62 شرکت‌کننده در بازه‌های زمانی مختلف در شرایط محیطی مختلف جمع‌آوری شدند (شکل 3 را ببینید). از 62 شرکت‌کننده در این آزمایش، 34 نفر مرد و 28 نفر زن، با میانگین سنی 22 تا 54 سال‌اند. همچنین 6 نفر از این شرکت‌کنندگان چپ‌دست و 56 نفر راست‌دست بودند. درنهایت، براساس استانداردهای از پیش تعریف‌شده، ویژگی‌های بافتی و ساختاری دستخط به دست آمدند. ویژگی‌های بافتی مربوط به یک سند دست‌نویس به عواملی مانند کاغذ، جوهر، ابزارهای نوشتن و غیره بستگی دارد؛ در صورتی که ویژگی‌های ساختاری به سبک‌های نوشتاری، نحوة پیوستن حروف و غیره اشاره دارد. گفتنی است زبان فارسی به‌عنوان زبان مقصد انتخاب شده که مجموعه دادة مربوط به آن به دست آمده است. انتخاب این زبان به این علت است که محققان به نمونه‌های این زبان دسترسی آسان و کافی داشتند.

 هر حرف از زبان فارسی چهار فرم نوشتاری مختلف دارد؛ فرم جداگانه29 (S)، فرم شروع کلمه30 (BOW)، فرم میانی کلمه31 (MOW) و فرم انتهایی کلمه32 (EOW). انتخاب فرم به موقعیت آن در یک کلمه بستگی دارد. از شرکت‌کنندگان چهار جمله مربوط به چهار فرم بیان‌شده گرفته شد و از آنها خواسته شد تا دستورالعمل‌های زیر را دنبال کنند: در مرحلة اول، هر جمله دوازده بار براساس استاندارد ASTM روی یک برگ کاغذ جداگانه نوشته شد. در مرحلة دوم، هر چهار جمله در یک برگ جداگانة دیگر نوشته شدند. از دو نوع کاغذ استاندارد متفاوت «PaperOne» و «Double-A» استفاده شد که مشخصات آنها در جدول 1 نشان داده شده است [35].

در این مطالعه از دو نوع مختلف از خودکارهای استاندارد، به مارک «Schneider» و «Faber-Castell» با رنگ‌های «آبی» و «سیاه» استفاده شد. مشخصات این خودکارها در جدول 2 آورده شده است [36-37]. نمونه‌هایی از فرم‌های نوشتاری شرکت‌کنندگان در شکل 3 نشان داده شده‌اند. گفتنی است شرکت‌کنندگان فرم اصلی را به زبان فارسی پر کردند و به‌ازای هر فرد، مجموعه کاملی از نمونه‌ها گرفته شد.

همه نمونه‌ها روی دو پد نوشتاری مختلف نوشته شدند که به‌عنوان پدهای «سخت» و «نرم» هستند. استفاده از این دو نوع پد، برای نشان‌دادن میزان فشار قلم در نظر گرفته شده است. نمونه‌های جمع‌آوری‌شده توسط RICOH Aficio MP 6001 با رزولوشن 300 dpi در حالت رنگی اسکن شدند. ترتیب نمونه‌های جمع‌آوری‌شده، اطلاعات و جزئیات موردنیاز به‌عنوان کتاب کد در مجموعه داده‌ها ذخیره شده است. مجموعه دادة جمع‌آوری‌شده از 62 شرکت‌کننده شامل 441 صفحه و 4203 جمله از هم جدا شده است. همان‌طور که در شکل 4 نشان داده شده است، ارتفاع نمونه‌های جمله‌ای 236 پیکسل و عرض آنها متغیر است. اندازة صفحات نمونه‌ها برابر با 1656 × 2339 پیکسل است. از این پس، این مجموعه دادة خاص «DANA_HW» نام‌گذاری می‌شود و در دسترس همه محققان در پلتفرم GitHub قرار می‌گیرد.

 

3-2- پیش‌پردازش داده‌ها

در این مطالعه، به‌منظور کاهش زمان اجرا و حجم محاسبات، پس از جداسازی 4203 جمله (مربوط به 62 شرکت‌کننده با اندازة 236 پیکسل و عرض متغیر)، اندازة جملات ابتدا به 112 پیکسل و عرض متغیر تبدیل می‌شود. سپس با استفاده از روش تقسیم‌بندی33، 4203 جمله به 86304 نمونه با اندازة 112 × 112 پیکسل تقسیم می‌شوند؛ پس از آن، نمونه‌ها نرمال می‌شوند. عملیات تقسیم‌بندی یکی از جملات در شکل 5 نشان داده شده است. مطابق شکل 5، هر جمله به نمونه‌های 112 × 112 به‌صورت اتوماتیک تقسیم شده است. در برخی از نمونه‌های تقسیم‌شده، تصویر حاوی شکاف‌هایی بین کلمات است که با نماد (a) نمایش داده شده‌اند. در برخی از نمونه‌های دیگر تصویر یا حاوی هیچ دادة ارزشمندی برای پردازش نیست که با نماد (b) یا حاوی داده‌های غیرقابل توجه یا کمی برای پردازش‌اند که با نماد (c) مشخص شده‌اند؛ حتی گاهی شرکت‌کنندگان در نمونه‌گیری با هدف تصحیح، بخشی از دست‌نوشته را مخدوش کرده‌اند که در تقسیم‌بندی با نماد (d) نمایش داده شده‌اند. چنین بخش‌هایی به کاهش دقت در شبکهة پیشنهادی منجر می‌شود؛ با وجود این، آنها از مجموعه داده حذف نمی‌شوند تا نمونه‌ها اصلی و دست‌نخورده باقی بمانند. چنین بخش‌هایی «بخش‌های فریبنده» نام‌گذاری شده‌اند. برخی از این بخش‌های فریبنده در شکل 6 نشان داده شده‌اند.

 

3-3- شبکة عمیق پیشنهادی

شبکة عمیق پیشنهادی در این مطالعه از ترکیب یک شبکه از پیش آموزش‌دیده کانولوشنال Resnet-152 [38] با شبکة‌ LSTM ایجاد شده است. با ترکیب شبکة‌ Resnet-152 با شبکة LSTM می‌توان از مزایای هر دو شبکه به‌طور هم‌زمان استفاده کرد. در بسیاری از مطالعات، از ترکیب شبکه‌های LSTM با شبکه‌های کانولوشنال عمیق به‌منظور کاهش ابعاد ویژگی، افزایش پایداری، کاهش نوسانات، بهبود فرایند آموزش و افزایش صحت شناسایی استفاده شده است [29-30]. شبکة پیشنهادی بر پایة شبکه از پیش آموزش‌دیدةResnet-152  با یک بلوک پیشنهادی ترکیب می‌شود که شامل دو لایه LSTM، سه لایه نرمال‌سازی دسته‌ای، سه لایه حذف تصادفی و دو لایه FC است (شکل 2 را ببینید). شبکه‌های از پیش آموزش‌دیده از چند لایه تشکیل شده‌اند که هر لایه ویژگی‌های خاصی را یاد می‌گیرد. لایه‌های اولیه ویژگی‌های پایه‌ای و سطح پایین و لایه‌های بعدی ویژگی‌های پیچیده و سطح بالا را یاد می‌گیرند. در این فرایند ماتریس وزن با روند آموزش تشکیل و تنظیم می‌شود. معماری بلوک پیشنهادی به‌صورت زیر انتخاب شده است: (1) یک لایه FC با تابع خطی34 به همراه یک لایه نرمال‌ساز دسته‌ای با تابع Relu که پس از آن، یک لایه حذف تصادفی قرار می‌گیرد. (2) یک لایه LSTM با تابع Relu که پس از آن، لایه‌های نرمال‌ساز دسته‌ای و حذف تصادفی قرار می‌گیرند. (3) معماری مرحلة قبل، یک‌بار دیگر تکرار می‌شود. (4) یک لایه FC با تابع غیرخطی سافت‌مکس برای دسترسی به لایه خروجی استفاده می‌شود. در شبکة پیشنهادی، خروجی شبکه از پیش آموزش‌دیده یک بردار ویژگی با اندازة 512 × 256 است. در اولین لایه بلوک پیشنهادی، یعنی FC، تابع خطی روی وزن‌‌های قابل یادگیری ویژگی‌های به‌دست‌آمده (w) اعمال می‌شود. مقادیر پیش‌بینی‌شدة بایاس  در نظر گرفته می‌شود تا ابعاد بردار ویژگی را به 1 × 256 تغییر دهد. همان‌طور که ملاحظه می‌شود، کاهش ابعاد در لایه‌های پنهان از 112 × 112 (اندازة ورودی) به 128 (بردار ویژگی انتخاب‌شده) ادامه یافته است که درنهایت، بردار ویژگی انتخاب‌شده به یک لایه FC با تابع غیرخطی سافت‌‌مکس متصل می‌شود (شکل 2 را ببینید).

در این مطالعه همه ابر پارامترهای شبکة پیشنهادی به دقت تنظیم شده‌اند تا بهترین نرخ همگرایی را به دست آورند و درنهایت، تابع خطای کراس آنتروپی35و بهینه‌ساز SGD36 با نرخ یادگیری 01/0 انتخاب شده‌اند. روش مرسوم پس‌انتشار خطا با اندازه دستة 100 برای آموزش شبکه استفاده شده است. ابر پارامترهای بهینة انتخاب‌شده برای مدل پیشنهادی در جدول 3 نشان داده شده است.

براساس مطالعات صورت‌گرفته در ادبیات پیشین، از تکنیک‌های افزایش داده برای بهبود صحت، جلوگیری از پدیدة بیش‌برازش و بهبود روند آموزش در شبکه‌های عصبی استفاده می‌شود [39-40]؛ با وجود این، تکنیک‌های افزایش داده باید با دقت انتخاب شوند و از هر تکنیک افزایش داده نمی‌توان برای داده‌های دست‌نویس استفاده کرد. در این مطالعه تکنیک‌های مقیاس خاکستری تصادفی37، تغییر رنگ38 و چرخش تصادفی39 به‌عنوان تکنیک‌های افزایش داده انتخاب شده‌اند. نمونه‌هایی از داده‌های افزوده‌شده در شکل 7 نشان داده شده‌اند. پس از استفاده از تکنیک‌های افزایش داده، مجموعه داده‌های آموزش 50 درصد افزایش می‌یابند.

به‌عنوان آخرین مرحله برای افزایش و به حداکثر رساندن دقت پیش‌بینی، از تکنیک TTA40 استفاده می‌شود. همانند داده‌افزایی روی مجموعه دادة آموزشی برای بهبود عملکرد مدل، هدف از TTA انجام تغییرات تصادفی روی مجموعه دادة (تصاویر) آزمون است؛ بنابراین، به جای نشان‌دادن فقط یک‌بار تصاویر معمولی به مدل آموزش‌دیده، چندین‌بار تصاویر تقویت‌شده به آن نشان داده می‌شوند. پس از آن، میانگین پیش‌بینی‌های هر تصویر، محاسبه و به‌عنوان پیش‌بینی نهایی در نظر گرفته می‌شود. این روش، تکنیکی برای بهبود پیش‌بینی مدل است که به‌طور متداول برای محاسبة پیش‌بینی‌های میانگین در بسیاری از مطالعات طبقه‌بندی استفاده شده است [41-42]. ساختار TTA در شکل 8 نشان داده شده است. در این مطالعه از چرخش تصادفی به‌عنوان تکنیک‌ افزایش داده در داده‌های آزمون استفاده شده است.

همان‌طور که گفته شد، در این مطالعه آموزش و ارزیابی مدل پیشنهادی با استفاده از داده‌های نامتجانس انجام می‌شود. شکل 9 نمونه‌های دستخط نامتجانس را برای فرایند آموزش و ارزیابی نشان می‌دهد. با توجه به این واقعیت که تمام تصاویر 1 تا 24 متعلق به یک فرد است‌، تصاویر 1 تا 15 در مجموعه داده‌های آموزشی و تصاویر 16 تا 24 به مجموعه داده‌های اعتبار‌سنجی و ارزیابی تعلق دارند؛ برای مثال، تصاویر 1 و 3 بیشترین شباهت را با تصویر 18 (a) دارند. همچنین، تصاویر 6 و 16 یکسان‌اند (b)؛ در مقابل، تصاویر 19 و 22 هیچ‌گونه همتایی در مجموعه داده‌های آموزشی ندارند (c).

از کل نمونه‌های جمع‌آوری‌شده (86304 نمونه)، 51782 نمونه برای داده‌های آموزش (60 درصد)، 25890 نمونه (30 درصد) برای داده‌های اعتبار‌سنجی و 8632 نمونه برای داده‌های آزمون (10 درصد) استفاده می‌شود. علاوه بر این، تمام نمونه‌های اختصاص داده شده به مجموعه‌های آموزش و ارزیابی به‌طور تصادفی انتخاب می‌شوند.

 

 

 

 

شکل (1): ساختار یک شبکۀ عصبی بازگشتی LSTM [28].

 

 

شکل (2): بلوک دیاگرام الگوریتم پیشنهادی.

 

جدول (1): جزئیات دو نوع کاغذ استاندارد استفاده‌شده در این مطالعه

خواص

واحد

PaperOne

DoubleA

هدف

تلرانس

روش

هدف

تلرانس

روش

وزن پایه

g/m2

80

±4%

ISO  536

80

±3%

ISO  536

ضخامت

µm

110

±3

ISO  534

5/106

±5/3

ISO  534

زبری

ml/min

140

±40

ISO  2-8791

150

±50

ISO 8791

روشنایی ISO

%

99

±2

ISO  2470

5/102

±5/1

ISO  2470

تیرگی ISO

%

95

±2

ISO  2471

94

-

ISO  2471

سفیدی CIE

#

167

±2

ISO  11475

160

±2

ISO  11475

 

جدول (2): مشخصات خودکارهای استاندارد استفاده‌شده در این مطالعه؛

(الف) مشخصات خودکار Schneider، (ب) مشخصات خودکار Faber-Castell.

شماره مقاله

عرض خط

رنگ

مدل

GTIN

نوع

150503

Fine 0.4 mm

Blue

Tops 505

400467 5004 567

Ballpoint

150501

Fine 0.4 mm

Black

Tops 505

400467 5004 529

Ballpoint

 

(ب) مشخصات خودکار Faber-Castell.

شماره مقاله

عرض خط

رنگ

مدل

GTIN

نوع

34 07 98

Fine 0.7 mm

Blue

TRI-Flow

8901180407516

Ballpoint

34 07 50

Fine 0.7 mm

Black

TRI-Flow

8901180407998

Ballpoint

 

شکل (3): نمونه‌هایی از فرم نوشتاری شرکت‌کنندگان

 

 

 

(الف) صفحه

(ب) جمله

شکل (4): اندازه نمونه‌ها؛ (الف) صفحه، (ب) جمله.

 

شکل (5): عملیات تقسیم‌بندی یکی از جملات.

 

 

شکل (6): بخشهای فریبنده.

 

جدول (3): ابر پارامترهای بهینة استفاده‌شده در مدل پیشنهادی.

پارامتر

 

فضای جستجو

 

مقدار بهینه

بهینه‌ساز

RMSProp, Adam, Adamax, SGD, Adadelta

SGD

تابع خطا

MSE, Cross-entropy

Cross-entropy

نرخ لایه حذف تصادفی

0، 2/0، 3/0، 4/0، 5/0

2/0

اندازه دسته

4، 8، 10، 16، 32، 64، 100

100

نرخ یادگیری

01/0، 001/0، 0001/0

01/0

تابع فعال‌ساز در لایه FC اول بلوک پیشنهادی

Leaky-Relu, Sigmoid, Relu, Linear

Linear

تابع فعال‌ساز در لایه‌های مخفی بلوک پیشنهادی

Leaky-Relu, Sigmoid, Relu, Linear

Relu

تابع فعال‌ساز در لایه آخر بلوک پیشنهادی

Softmax, Sigmoid

Softmax

 

 

شکل (7): نمونه‌هایی از داده‌های افزوده‌شده با استفاده از تکنیک داده‌افزایی.

 

شکل (8): ساختار TTA.

 

 

 

 

شکل (9): نمونه‌های دستخط نامتجانس.

   

 

 

4- نتایج و بحث

روش پیشنهادی41 (P-M) شناسایی نویسنده و کلیه نتایج و بررسی‌ها در پایتون با استفاده از کتابخانه‌های متنوعی انجام شده‌اند که مهم‌ترین آنها PyTorch و NumPy هستند. این بررسی‌ها روی یک سیستم رایانه‌ای با مشخصات زیر انجام شده‌اند: پردازندة مرکزی Intel Core i7-6700K، پردازندة گرافیکیGeForce GTX TITAN X 12 GB ، رم 64 گیگابایت DDR IV و هارددیسک 1 ترابایت SSD. به‌منظور ارزیابی عملکرد روش پیشنهادی، از رابطة مربوط به صحت استفاده می‌شود که به‌صورت زیر بیان می‌شود [43]:

(11)

 

 

که در آن، TP موارد مثبتی است که به درستی مثبت تشخیص داده شده است. FP موارد منفی است که به اشتباه مثبت تشخیص داده شده است. TN موارد منفی است که به درستی منفی تشخیص داده شده است. FN موارد مثبتی است که به اشتباه منفی تشخیص داده شده است.

نتایج تجربی مدل پیشنهادی (شبکه از پیش آموزش‌دیدة Resnet-152 همراه با بلوک پیشنهادی) و شبکه از پیش آموزش‌دیدة Resnet-152 بدون بلوک پیشنهادی در جدول 4 آمده‌اند. مطابق این جدول، هر دو مدل هنگام استفاده از تکنیک TTA، عملکرد بهتری نسبت به استفاده از تکنیک TTA دارند. صحت ارزیابی مدل پیشنهادی (P-M) با تکنیک TTA، 66/99 درصد است؛ در حالی که صحت ارزیابی مدل پیشنهادی بدون استفاده از تکنیکTTA ، 78/95 درصد است. همچنین صحت ارزیابی Resnet-152 با تکنیک TTA، 51/96 درصد است؛ در حالی که صحت ارزیابی Resnet-152 بدون استفاده از تکنیکTTA ، 45/93 درصد است. همان‌طور که در جدول 4 ملاحظه می‌شود، صحت و زمان اجرای مدل پیشنهادی از مدل Resnet-152 بیشتر است.

همچنین نمودار صحت و خطا برای داده‌های اعتبارسنجی مدل پیشنهادی (P-M) و مدل Resnet-152 با تکنیک TTA در شکل 10 ارائه شده است. مطابق این شکل، خطای شبکه مدل پیشنهادی و مدل Resnet-152 با افزایش تکرار الگوریتم کاهش می‌یابد. همچنین مشاهده می‌شود مدل پیشنهادی و مدل Resnet-152 پس از 200 تکرار تقریباً به صحت 99 درصد و 96 درصد می‌رسند.

برای ارزیابی مدل پیشنهادی، از چهار مجموعه دادة بیان‌شده در بخش 3-1 استفاده شده است. نتایج شناسایی مدل پیشنهادی و مدل Resnet-152 با تکنیک TTA برای شناسایی نویسندگان با استفاده از هریک از چهار مجموعه داده در جدول 5 آورده شده‌اند. مطابق جدول 5، مدل پیشنهادی مبتنی بر شبکه بهبودیافتة Resnet-152، از مدل Resnet-152 برای شناسایی نویسندگان با استفاده از هریک از چهار مجموعه داده بهتر عمل می‌کند.

صحت ارزیابی روش‌های مختلف برای شناسایی نویسنده در جدول 6 ارائه و در شکل 11 مقایسه شده‌اند که نتایج مدل پیشنهادی (P-M) در جدول 6 به‌صورت برجسته مشخص شده‌اند. مقایسه‌ها بر پایة چهار مجموعه دادة بیان‌شده، یعنیIAM ، CVL، KHATT و IFN/ENIT انجام می‌شوند. تعداد نویسندگان در هر بررسی نیز در جدول 6 آمده است. گفتنی است تفاوت‌های ارائه‌شده در جدول 6، دربارة تعداد نمونه‌های بررسی‌شده در مجموعه داده‌های بیان‌شده، به‌دلیل در دسترس بودن آنها است. همان‌طور که در جدول 6 و شکل 11 نشان داده شده است، دربارة تمام مجموعه داده‌های ارزیابی‌شده، مقادیر صحت طبقه‌بندی نشان‌دهندة عملکرد بهتر مدل پیشنهادی در مقایسه با سایر روش‌هاست.

به‌منظور نشان‌دادن عملکرد مدل شبکۀ عصبی کانولوشن عمیق (DCNN) با مجموعه داده‌های DANA_HW به‌عنوان ورودی، صحت ارزیابی با استفاده از مدل‌های دیگر نیز به دست آمده است؛ براساس این، داده‌های خام DANA_HW و چندین ویژگی مهندسی از مجموعه داده‌های DANA_HW همراه با شبکه پس‌انتشار خطا42 (BPNN) و ماشین بردار پشتیبان (SVM) به‌عنوان مدل‌های مقایسه‌ای انتخاب شده‌اند [53-55]. تابع پایه شعاعی گوسین43 به‌عنوان تابع کرنل ماشین بردار پشتیبان بوده و از روش جستجوی شبکه44 برای بهینه‌سازی پارامترهای کرنل استفاده شده است. معماری شبکة BPNN از یک لایه مخفی تشکیل شده که در آن از تابع فعال‌ساز سیگموئید استفاده شده است. به‌منظور دستیابی به نتایج بهتری از مدل‌های BPNN و DCNN، ابر پارامترهای آنها با توجه به داده‌های مختلف تنظیم می‌شوند. پنج ویژگی استاندارد که نمی‌توانند از تغییرات زمانی تأثیر بگیرند به‌عنوان ویژگی‌های مهندسی انتخاب شده‌اند: مساحت45، مختصات مرکزی46، گریزازمرکز47، کشیدگی48 و چولگی49 [56]. صحت ارزیابی روش‌های مختلف بر پایة یادگیری ویژگی از داده‌های خام و ویژگی‌های مهندسی در جدول 7 ارائه شده است که نتایج مدل DCNN پیشنهادی با داده‌های خام به‌عنوان ورودی، یعنی روش پیشنهادی، در جدول 7 برجسته شده‌اند. در روش پیشنهادی از معماری ارائه‌شده در بخش 3-3 استفاده شده است. مقایسة عملکرد یادگیری ویژگی‌ها و ویژگی‌های مهندسی ارائه‌شده در جدول 7 نشان می‌دهد یادگیری ویژگی از داده‌های خام با مدل DCNN پیشنهادی، نتایج بهتری نسبت به ویژگی‌های مهندسی ارائه می‌دهد (با افزایش صحت در حدود 13 درصد). این نتیجه کاملاً به معماری منحصربه‌فرد DCNN پیشنهادی مربوط می‌شود که می‌تواند به‌صورت خودکار ویژگی‌های مفید را از داده‌های خام استخراج کند. علاوه بر این، استخراج ویژگی‌های مهندسی به دانش و تخصص قبلی نیاز دارد؛ در حالی که یادگیری ویژگی از داده‌های خام وابستگی کمتری به دانش تخصصی دارد. مدل DCNN پیشنهادی با یادگیری ویژگی از داده‌های خام نتایج بهتری ارائه می‌دهد؛ در حالی که همه مدل‌های بررسی‌شده، یعنیDCNN ، BPNN و SVM نتایج مشابهی را برای ویژگی‌های مهندسی ارائه می‌دهند. این نشان می‌دهد DCNN بدون توانایی یادگیری ویژگی نمی‌تواند نتایج بهتری در شناسایی نویسنده نسبت به روش‌های سنتی ارائه دهد.

 

 

جدول (4): نتایج ارزیابی مدل Resnet-152 همراه با بلوک پیشنهادی (مدل پیشنهادی) در مقایسه با Resnet-152 بدون بلوک پیشنهادی.

نام شبکه

 

ارزیابی بدون TTA

 

ارزیابی با TTA

 

زمان ارزیابی با TTA (ms)

صحت آزمون

 

صحت آزمون

 

زمان آموزش

زمان آزمون

Resnet-152 همراه با بلوک پیشنهادی (P-M)

78/95

66/99

 

54/17

85/1

Resnet-152

 

45/93

 

51/96

 

32/14

15/1

 

شکل (10): نمودار صحت و خطا برای داده‌های اعتبارسنجی

 

جدول (5): نتایج ارزیابی مدل پیشنهادی و مدل Resnet-152 برای چهار مجموعه دادة جامع.

نام شبکه

 

پایگاه داده

 

ارزیابی با TTA

نام داده

زبان

تعداد نویسندگان

تعداد نمونه‌ها

صحت آزمون (%)

Resnet-152 همراه با بلوک پیشنهادی (P-M)

IAM

انگلیسی

150

4899

64/98

CVL

انگلیسی

309

1854

85/99

KHATT

عربی

828

10898

88/99

IFN/ENIT

عربی

411

26459

76/99

Resnet-152

IAM

انگلیسی

150

4899

92/97

CVL

انگلیسی

309

1854

34/99

KHATT

عربی

828

10898

38/99

IFN/ENIT

عربی

411

26459

11/99

 

جدول (6): صحت روش پیشنهادی در مقایسه با سایر روش‌ها.

پایگاه داده

 

ارزیابی

نام

زبان

تعداد نویسندگان

روش

صحت (%)

IAM

English

650

هاناد و همکاران [44]

54/89

657

خان و همکاران [45]

2/97

657

چاهی و همکاران [10]

99/88

657

والبرگ و همکاران [46]

4/69

657

هی و همکاران [47]

1/86

220

کوتزنر و همکاران [48]

34/98

150

مدل پیشنهادی (P-M)

64/98

CVL

English

310

هاناد و همکاران [44]

2/96

310

خان و همکاران [45]

6/99

309

چاهی و همکاران [10]

38/98

310

والبرگ و همکاران [46]

6/95

310

هی و همکاران [47]

7/93

311

بننور و همکاران [49]

23/99

309

مدل پیشنهادی (P-M)

85/99

KHATT

Arabic

1000

کریستلین و همکاران [50]

6/99

1000

رحمان و همکاران [51]

2/92

1000

هاناد و همکاران [5]

4/85

828

مدل پیشنهادی (P-M)

88/99

IFN/ENIT

Arabic

411

خان و همکاران [45]

76

411

چاهی و همکاران [10]

47/96

411

صبا و همکاران [52]

72/94

411

هاناد و همکاران [5]

86/96

411

مدل پیشنهادی (P-M)

76/99

 

شکل (11): مقایسة صحت آزمون روش‌های مختلف.

جدول (7): صحت آزمون روش پیشنهادی در مقایسه با سایر مدل‌ها

ویژگی‌های مهندسی

 

یادگیری ویژگی از دادة خام

 

مدل‌ها

42/86

 

26/87

 

SVM

23/84

18/86

BPNN

27/85

66/99

DCNN

 

 

5- نتیجه‌گیری

با توجه به پیچیدگی‌های سبک‌های نوشتاری و نیاز سازمان‌های دولتی (مانند دادگستری و دفاتر ثبت اسناد) به شناسایی دستخط نویسندگان، هدف این مطالعه ارائه یک روش جدید برای شناسایی آفلاین نویسنده با استفاده از نمونه‌های دستخط در شرایط آزمایشی مختلف است. دو ویژگی درخور توجه و مهم مطالعة حاضر استفاده از داده‌های نامتجانس و استقلال روش پیشنهادی برای هر زبان خاص است. در این مطالعه یک مجموعه دادة جامع بر پایة استانداردهای ASTM طراحی شده است. یک مدل DCNN مبتنی بر شبکه از پیش آموزش‌دیده برای استخراج ویژگی‌ها به‌صورت سلسله‌مراتبی از دست‌نوشته‌های خام طراحی و توسعه یافته است.

مطالعة حاضر نشان داد روش پیشنهادی می‌تواند ویژگی‌ها را از روی داده‌های خام دستخط بیاموزد و به صحت قابل قبولی برای شناسایی نویسنده دست یابد. مدل پیشنهادی بر پایة شبکه از پیش آموزش‌دیده به همراه مجموعه دادة طراحی‌شده و چهار نوع مجموعه دادة جامع بررسی شد. نتایج نشان دادند مدل پیشنهادی (شبکه از پیش آموزش‌دیده همراه با بلوک پیشنهادی) از شبکه از پیش آموزش‌دیده بدون بلوک پیشنهادی در شناسایی نویسنده برای هریک از پنج مجموعه دادة بیان‌شده، بهتر عمل می‌کند. همچنین، صحت روش‌های مختلف برای چهار نوع مجموعه دادة جامع با مدل پیشنهادی مقایسه شد. نتایج نشان‌دهندة صحت بالاتر مدل پیشنهادی در مقایسه با سایر روش‌ها برای همه مجموعه داده‌ها بود. علاوه بر این، مجموعه دادة طراحی‌شده همراه با DCNN بررسی و با ویژگی‌های مهندسی و دو روش هوشمند BPNN و SVM مقایسه شد. نتایج نشان دادند روش پیشنهادی قادر به یادگیری ویژگی‌ها و به دست آوردن نتایج شناسایی قانع‌کننده‌ای است. در مقایسه با ویژگی‌های مهندسی، روش پیشنهادی صحت شناسایی را حدوداً 13 درصد افزایش می‌دهد و همچنین وابستگی کمتری به دانش تخصص دارد. با توجه به نتایج ارائه‌شده، می‌توان بیان کرد روش پیشنهادی برای شناسایی خودکار نویسنده بسیار رضایت‌بخش و مناسب است و می‌تواند با ورود به حوزة کاربردی، دستیار خوبی برای متخصصان شناسایی دستخط باشد.

 

[1] تاریخ ارسال مقاله: 24/12/1399

تاریخ پذیرش مقاله: 17/08/1400

نام نویسندۀ مسئول: سید ناصر رضوی

نشانی نویسندۀ مسئول: : ایران - ارومیه- دانشگاه آزاد اسلامی- دانشکده مهندسی کامپیوتر و فناوری اطلاعات

1 Handwriting Recognition

2 Writer Identification

3 Writer Verification

4 Multi-Channel Gabor Filter (MGF)

5 Moor

6 Fisher's Linear Discriminant Analysis (LDA)

7 Principal Component Analysis (PCA)

8Support Vector Machine (SVM)

9 Bengali

10 Deep Convolutional Neural Network (DCNN)

11 Recurrent Neural Network (RNN)

12 Random Hybrid Strokes (RHSs)

13 Deep Neural Network (DNN)

14 pre-trained network

15 Convolutional Neural Network (CNN)

16 Long Short Term Memory (LSTM)

17 Artificial neural networks (ANNs)

18 Feedforward

19 Back Propagation (BP)

20 Loss Function

21 Pooling Layer

22 Fully Connected

23 Over Fitting

24 Dropout

25 Batch Normalization (BN)

26 Down Sampling

27 Max-Pooling

28 Softmax

29 Separated form (S)

30 Beginning Of Word form (BOW)

31 Middle Of Word form (MOW)

32 End Of Word form (EOW)

33 Segmentation

34 Linear

35 Cross-Entropy

36 Stochastic Gradian Descend (SGD)

37 RandomGrayscale

38 ColorJitter

39 RandomRotation

40 Test Time Augmentation (TTA)

41Proposed Method (P-M)

42 Back-Propagation Neural Network (BPNN)

43 Gaussian Radial Basis Function (RBF)

44 Grid search method

45Area

46 Centroid Coordinates

47 Eccentricity

48 Kurtosis

49 Skewness

[1] S. N. Srihari, S.-H. Cha, H. Arora, and S. Lee, "Individuality of handwriting," Journal of forensic science, vol. 47, no. 4, pp. 1-17, 2002.
[2] N. Pokhriyal, K. Tayal, I. Nwogu, and V. Govindaraju, "Cognitive-biometric recognition from language usage: A feasibility study," IEEE Transactions on Information Forensics and Security, vol. 12, no. 1, pp. 134-143, 2016.
[3] H. E. Said, T. N. Tan, and K. D. Baker, "Personal identification based on handwriting," Pattern Recognition, vol. 33, no. 1, pp. 149-160, 2000.
[4] A. A. Ahmed, H. R. Hasan, F. A. Hameed, and O. I. Al-Sanjary, "Writer identification on multi-script handwritten using optimum features," Kurdistan Journal of Applied Research, vol. 2, no. 3, pp. 178-185, 2017.
[5] Y. Hannad, I. Siddiqi, C. Djeddi, and M. E.-Y. El-Kettani, "Improving Arabic writer identification using score-level fusion of textural descriptors," IET Biometrics, vol. 8, no. 3, pp. 221-229, 2019.
[6] Z. Mousavi, S. Varahram, M. M. Ettefagh, M. H. Sadeghi, and S. N. Razavi, "Deep neural networks–based damage detection using vibration signals of finite element model and real intact state: An evaluation via a lab-scale offshore jacket structure," Structural Health Monitoring, p. 1475921720932614, 2020.
[7] Z. Mousavi, M. M. Ettefagh, M. H. Sadeghi, and S. N. Razavi, "Developing deep neural network for damage detection of beam-like structures using dynamic response based on FE model and real healthy state," Applied Acoustics, vol. 168, p. 107402, 2020.
[8] C. Adak, B. B. Chaudhuri, and M. Blumenstein, "An empirical study on writer identification and verification from intra-variable individual handwriting," IEEE Access, vol. 7, pp. 24738-24758, 2019.
[9] L. G. Hafemann, R. Sabourin, and L. S. Oliveira, "Characterizing and evaluating adversarial examples for Offline Handwritten Signature Verification," IEEE Transactions on Information Forensics and Security, vol. 14, no. 8, pp. 2153-2166, 2019.
[10] A. Chahi, Y. Ruichek, and R. Touahni, "Block wise local binary count for off-line text-independent writer identification," Expert Systems with Applications, vol. 93, pp. 1-14, 2018.
[11] X.-Y. Zhang, G.-S. Xie, C.-L. Liu, and Y. Bengio, "End-to-end online writer identification with recurrent neural network," IEEE Transactions on Human-Machine Systems, vol. 47, no. 2, pp. 285-292, 2016.
[12] S. M. Awaida and S. A. Mahmoud, "Writer identification of arabic text using statistical and structural features," Cybernetics and Systems, vol. 44, no. 1, pp. 57-76, 2013.
[13] F. Shahabi and M. Rahmati, "A new method for writer identification of handwritten Farsi documents," in 2009 10th International Conference on Document Analysis and Recognition, 2009: IEEE, pp. 426-430.
[14] M. S. Baghshah, S. B. Shouraki, and S. Kasaei, "A novel fuzzy classifier using fuzzy LVQ to recognize online Persian handwriting," in 2006 2nd International Conference on Information & Communication Technologies, 2006, vol. 1: IEEE, pp. 1878-1883.
[15] X. Wu, Y. Tang, and W. Bu, "Offline text-independent writer identification based on scale invariant feature transform," IEEE Transactions on Information Forensics and Security, vol. 9, no. 3, pp. 526-536, 2014.
[16] R. Kumar and M. Kaur, "A character based handwritten identification using neural network and SVM," International Journal of Scientific Research in Science, Engineering and Technology (IJSRSET), 2017.
[17] S. Y. Manchala, J. Kinthali, K. Kotha, J. Kumar, and J. Jayalaxmi, "Handwritten text recognition using deep learning with Tensorflow," International Journal of Engineering and Technical Research, vol. 9, no. 5, 2020.
[18] X.-Y. Zhang, G.-S. Xie, C.-L. Liu, and Y. Bengio, "End-to-end online writer identification with recurrent neural network," IEEE Transactions on Human-Machine Systems, vol. 47, no. 2, pp. 285-292, 2016.
[19] V. Carbune et al., "Fast multi-language LSTM-based online handwriting recognition," International Journal on Document Analysis and Recognition (IJDAR), pp. 1-14, 2020.
[20] M. Javidi and M. Jampour, "A deep learning framework for text-independent writer identification," Engineering Applications of Artificial Intelligence, vol. 95, p. 103912, 2020.
[21] Y. Xu, Y. Chen, Y. Cao, and Y. Zhao, "A Deep Learning Method for Chinese writer Identification with Feature Fusion," in Journal of Physics: Conference Series, 2021, vol. 1883, no. 1, p. 012142: IOP Publishing.
[22] Z. Wang, A. Maier, and V. Christlein, "Towards End-to-End Deep Learning-based Writer Identification," INFORMATIK 2020, 2021.
[23] E2290-07a, A., Standard Guide for Examination of Handwritten Items, in ASTM International. 2007: West Conshohocken.
[24] I. Goodfellow, Y. Bengio, A. Courville, and Y. Bengio, Deep learning (no. 2). MIT press Cambridge, 2016.
[25] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. R. Salakhutdinov, "Improving neural networks by preventing co-adaptation of feature detectors," arXiv preprint arXiv:1207.0580, 2012.
[26] S. Ioffe and C. Szegedy, "Batch normalization: Accelerating deep network training by reducing internal covariate shift," in International conference on machine learning, 2015: PMLR, pp. 448-456.
[27] N. Siddique and H. Adeli, Computational intelligence: synergies of fuzzy logic, neural networks and evolutionary computing. John Wiley & Sons, 2013.
[28] S. Hochreiter and J. Schmidhuber, "Long short-term memory," Neural computation, vol. 9, no. 8, pp. 1735-1780, 1997.
[29] S. Sheykhivand, Z. Mousavi, T. Y. Rezaii, and A. Farzamnia, "Recognizing Emotions Evoked by Music Using CNN-LSTM Networks on EEG Signals," IEEE Access, vol. 8, pp. 139332-139345, 2020.
[30] Z.-K. Gao, Y.-L. Li, Y.-X. Yang, and C. Ma, "A recurrence network-based convolutional neural network for fatigue driving detection from EEG," Chaos: An Interdisciplinary Journal of Nonlinear Science, vol. 29, no. 11, p. 113126, 2019.
[31] U.-V. Marti and H. Bunke, "The IAM-database: an English sentence database for offline handwriting recognition," International Journal on Document Analysis and Recognition, vol. 5, no. 1, pp. 39-46, 2002.
[32]  F. Kleber, S. Fiel, M. Diem, and R. Sablatnig, "Cvl-database: An off-line database for writer retrieval, writer identification and word spotting," in 2013 12th international conference on document analysis and recognition, 2013: IEEE, pp. 560-564.
[33] S. A. Mahmoud, H. Luqman, B. M. Al-Helali, G. BinMakhashen, and M. T. Parvez, "Online-KHATT: An Open-Vocabulary Database for Arabic Online-Text Processing," The Open Cybernetics & Systemics Journal, vol. 12, no. 1, 2018.
[34]  M. Pechwitz, S. S. Maddouri, V. Märgner, N. Ellouze, and H. Amiri, "IFN/ENIT-database of handwritten Arabic words," in Proc. of CIFED, 2002, vol. 2: Citeseer, pp. 127-136.
[38] Z. Wu, C. Shen, and A. Van Den Hengel, "Wider or deeper: Revisiting the resnet model for visual recognition," Pattern Recognition, vol. 90, pp. 119-133, 2019.
[39]  P. Domingos, "Bayesian averaging of classifiers and the overfitting problem," in ICML, 2000, vol. 747, pp. 223-230.
[40] D. M. Hawkins, "The problem of overfitting," Journal of chemical information and computer sciences, vol. 44, no. 1, pp. 1-12, 2004.
[41] D. Shanmugam, D. Blalock, G. Balakrishnan, and J. Guttag, "When and why test-time augmentation works," arXiv preprint arXiv:2011.11156, 2020.
[42] D. Jha et al., "A comprehensive study on colorectal polyp segmentation with ResUNet++, conditional random field and test-time augmentation," IEEE journal of biomedical and health informatics, vol. 25, no. 6, pp. 2029-2040, 2021.
[43] A. R. Hassan and M. I. H. Bhuiyan, "Computer-aided sleep staging using complete ensemble empirical mode decomposition with adaptive noise and bootstrap aggregating," Biomedical Signal Processing and Control, vol. 24, pp. 1-10, 2016.
[44] Y. Hannad, I. Siddiqi, and M. E. Y. El Kettani, "Writer identification using texture descriptors of handwritten fragments," Expert Systems with Applications, vol. 47, pp. 14-22, 2016.
[45] F. A. Khan, M. A. Tahir, F. Khelifi, A. Bouridane, and R. Almotaeryi, "Robust off-line text independent writer identification using bagged discrete cosine transform features," Expert Systems with Applications, vol. 71, pp. 404-415, 2017.
[46] F. Wahlberg, "Gaussian process classification as metric learning for forensic writer identification," in 2018 13th IAPR International Workshop on Document Analysis Systems (DAS), 2018: IEEE, pp. 175-180
[47] S. He and L. Schomaker, "Deep adaptive learning for writer identification based on single handwritten word images," Pattern Recognition, vol. 88, pp. 64-74, 2019.
[48] T. Kutzner, C. F. Pazmiño-Zapatier, M. Gebhard, I. Bönninger, W.-D. Plath, and C. M. Travieso, "Writer identification using handwritten cursive texts and single character words," Electronics, vol. 8, no. 4, p. 391, 2019.
[49] A. Bennour, C. Djeddi, A. Gattal, I. Siddiqi, and T. Mekhaznia, "Handwriting based writer recognition using implicit shape codebook," Forensic science international, vol. 301, pp. 91-100, 2019.
[50] V. Christlein and A. Maier, "Encoding CNN activations for writer recognition," in 2018 13th IAPR International Workshop on Document Analysis Systems (DAS), 2018: IEEE, pp. 169-174.
[51] A. Rehman, S. Naz, M. I. Razzak, and I. A. Hameed, "Automatic visual features for writer identification: a deep learning approach," IEEE access, vol. 7, pp. 17149-17157, 2019.
[52] T. Saba, "Fuzzy ARTMAP Approach for Arabic Writer Identification using Novel Features Fusion," J. Comput. Sci., vol. 14, no. 2, pp. 210-220, 2018.
[53] P. Santos, L. F. Villa, A. Reñones, A. Bustillo, and J. Maudes, "An SVM-based solution for fault detection in wind turbines," Sensors, vol. 15, no. 3, pp. 5627-5648, 2015.
[54] M. Hagan, H. Demuth, and M. Beale, "Neural Network Design (PWS, Boston, MA)," Google Scholar Google Scholar Digital Library Digital Library, 1996.
[55] S. Sheykhivand et al., "Developing an efficient deep neural network for automatic detection of COVID-19 using chest X-ray images," Alexandria Engineering Journal, vol. 60, no. 3, pp. 2885-2903, 2021.
[56] A. Karouni, B. Daya, and S. Bahlak, "Offline signature recognition using neural networks approach," Procedia Computer Science, vol. 3, pp. 155-161, 2011.