Gait Recognition based on Dynamic Texture descriptors

Document Type : Research Article

Authors

Dept. Electrical and Computer Engineering, Isfahan University of Technology, Isfahan, Iran

Abstract

The human movement analysis is an attractive topic in biometric research. Recent studies indicate that people have considerable ability to recognize others by their natural walking. Therefore, gait recognition has obtained great interest in biometric systems. The common biometrics is usually time-consuming, limited and collaborative. These drawbacks pose major challenges to the recognition process. Gait analysis is inconspicuous, needs no contact, is difficult to hide and can be evaluated at distance. This paper presents a bag of word method for gait recognition based on dynamic textures. Dynamic textures combine appearance and motion information. Since human walking has statistical variations in both spatial and temporal space, it can be described with dynamic texture features. To obtain these features, we extract spatiotemporal interest points and describe them by a dynamic texture descriptor. Afterwards, the hierarchical K-means as a clustering algorithm is applied to obtain the visual dictionary of video-words. As a result, human walking is represented as a histogram of video-words occurrences. The performance of our method is evaluated on two dataset: the KTH and IXMAS multiview datasets.

Keywords


امروزه بررسی رفتار و حرکات انسان از جمله راه رفتن، توجه بسیاری از محققان را به خود جلب نموده و به‌علت دامنه کاربرد وسیع از اهمیت بالایی برخوردار است. از جمله کاربردهای آن می‌توان در شاخص‌گذاری ویدئو، سیستم‌های نظارتی، تحلیل فیلم‌های ورزشی، محیط‌های هوشمند و سیستم‌های تشخیص هویت اشاره نمود.

شیوه راه رفتن هر شخص در مقایسه با افراد دیگر یکتاست. گام برداشتن انسان، فعالیتی پیچیده است که شامل حرکات همزمان اعضای بدن و تعامل بین آنهاست. از این‌رو، می‌توان از تفاوت بین حرکات و ساختار اعضای بدن در افراد مختلف، به عنوان ویژگی‌های خاص برای شناسایی استفاده نمود. از مزایای روش شناسایی از روی نحوه راه رفتن انسان می‌توان به امکان شناسایی فرد در فواصل دور، عدم نیاز به اطلاع و یا همکاری فرد و همچنین عدم امکان پنهان نمودن آن از دید ناظر و سیستم مراقبتی اشاره نمود. این روش می‌تواند در محیط‌های عمومی و با یک دنباله تصاویر با وضوح پایین از حرکات فرد، کارایی بالایی نسبت به سایر روش‌های شناسایی ارائه دهد. برای این دسته از سیستم‌ها کاربردهای فراوانی وجود دارد که از آن جمله می‌توان به نظارت، کنترل و تحلیل فعالیت‌های انسان اشاره نمود.

هدف این مقاله بررسی تحقیقات پژوهشی در زمینه تحلیل حرکات و ارائه روشی برای شناسایی از روی نحوه راه رفتن افراد است. تاکنون رهیافت‌های متعددی در این زمینه ارائه شده است که در اکثر آنها از اطلاعات حرکتی[1-3] یا شکل ظاهری [4-6] بهره گرفته شده است اما بررسی‌ها نشان داده‌اند که استناد به یک بعد به تنهایی نمی‌تواند تمامی اطلاعات مورد نیاز را فراهم کند. روش‌های مبتنی بر شکل به طور طبیعی نسبت به تغییرات ظاهری مانند حمل کوله‌پشتی حساس هستند. این روش‌ها نسبت به نویز، زمینه نویزی و یا حتی زمینه متحرک حساسیت کمتری نشان می‌دهند، اما زمان بر بوده، هزینه محاسباتی زیادی برای تطبیق‌های پیچیده به سیستم تحمیل می‌کنند. روش‌های مبتنی بر حرکت هیچ مدل خاصی برای بدن انسان در نظر نمی‌گیرند و از تغییرات وابسته به زمان، مانند تغییر در سرعت راه رفتن به عنوان اطلاعات استفاده می‌کنند.

تحلیل اطلاعات مکان‌-‌زمان شامل اطلاعات مکانی به معنای حالت ظاهری فرد در هر زمان و نیز اطلاعات زمانی به معنای موقعیت حرکتی بدن فرد در هر مکان است. امروزه تحلیل و بررسی حرکات انسان در فضای مکان‌-‌زمان بسیار مورد توجه قرار گرفته است [7-9]. از این‌رو، در تحقیقات اخیر برای شناسایی از روی نحوه راه رفتن نیز از اطلاعات در دو بعد مکان و زمان بهره گرفته شده است. برای نمونه، بن‌عبدالقادر و همکارانش [10] از نمودار خود متشابه[i] برای شناسایی استفاده نمودند. لیو و همکارانش [11] الگوی حاشیه که الگوی دیگری برای شناسایی است، معرفی کردند که در [12] به یک الگوی حاشیه برپایه واریانس شکل[ii]، توسعه می‌یابد. هنگ و ونگ [13] نیز شناسایی را با کمک تصاویر انرژی صفحه xt به‌دست آمده از فضای xyt انجام دادند و کوبیا و اتسو [14] از خودهمبستگی محلی سطح بالای مکعبی[iii] برای شناسایی حرکات بهره گرفتند.

بافت‌های پویا[iv] در طی زمان تغییرات آماری دارند. ازاین‌رو، به طور ذاتی شامل اطلاعات حرکتی هستند، همچنین، به‌علت محاسبه ویژگی‌های بافت پویا بر روی تصاویر ویدئویی، اطلاعات مربوط به شکل ظاهری (موقعیت، جهت و زاویه دید) هم وارد مسأله می‌گردد. از آنجایی که حرکات انسان از جمله راه رفتن نیز شامل اطلاعاتی در دو بعد مکان و زمان هستند، ازاین‌رو می‌توان از توصیف‌گرهای بافت پویا برای تحلیل استفاده نمود. الگوی دودویی محلی با سه صفحه متعامد[v](LBP-TOP) نمونه‌ای از توصیف‌گر‌های بافت پویاست [15] که تاکنون در حوزه‌های مختلف مانند توصیف صورت [16, 17]، گفتار [18, 19]، حالت دست [20]، تشخیص حرکات [7, 21] و شناسایی انسان از روی نحوه راه رفتن[22] به‌طور موفقیت‌آمیزی به‌کار گرفته شده است.

استخراج ویژگی‌های مناسب و متمایز یک پیش‌نیاز اساسی برای مرحله توصیف است که به دو روش سراسری و محلی انجام می‌گیرد. در روش سراسری از تمام اطلاعات دنباله ویدئویی استفاده می‌شود. در این روش طرحواره[vi] با کمک الگوریتم‌های جداسازی پس‌زمینه استخراج می‌شود و سپس کل طرحواره به عنوان ناحیه کلیدی در نظر گرفته شده و به ورودی توصیف‌گر داده می‌شود. در این روش همه نقاط از اهمیت یکسانی برخوردارند، به همین علت، این روش توانایی تعمیم‌دهی بالایی دارد، اما این روش نسبت به نویز، زاویه دید و همپوشانی حساس است. برای نمونه، بلنک و همکارانش [8] با در نظر گرفتن نقاط متناظر در هر فریم و جداسازی پس‌زمینه، طرحواره انسان را در هر فریم استخراج نموده، با کنار هم قرار دادن این طرحواره‌ها یک حجم سه بعدی که اطلاعات مهم مکانی و زمانی را در بردارد، تشکیل می‌دهند. سپس حرکت مورد نظر با کمک یک توصیف‌گر مناسب تحلیل می‌شود. وجود نویز در کارایی این روش بسیار مؤثر است، زیرا وجود نویز در کناره‌ حجم مکان‌-‌زمان در به‌دست آوردن نقاط برجسته اختلال ایجاد می‌کند.

در روش محلی اطلاعات نواحی خاصی از دنباله ویدئویی که شامل تغییرات ناگهانی در دو بعد زمان و مکان هستند، در نظر گرفته می‌شود. هر ناحیه به طور جداگانه با کمک یک توصیف‌گر مناسب توصیف گردیده، سپس با ترکیب اطلاعات نواحی مختلف، یک توصیف کلی به وجود می‌آید. در روش محلی نیازی به جداسازی پس زمینه وجود ندارد. همچنین، این روش نسبت به همپوشانی جزیی، تغییر در زاویه دید و شکل ظاهری نیز مقاوم است. در این روش به‌علت عدم استفاده از تمام نقاط دنباله ویدئویی ممکن است برخی اطلاعات از دست برود، اما با استخراج نقاط کلیدی مناسب و متمایز، اطلاعات اساسی دنباله ویدئویی استخراج می‌شود. از این رو، این روش عملکرد مناسبی خواهد داشت. آشکارساز دو بعدی هریس یک آشکار ساز معروف در بعد مکان است [23]، اما از آنجایی که نقاط شناسایی شده در یک بعد مکان و یا زمان تمامی اطلاعات مورد نیاز را در اختیار قرار نمی‌دهند، از این‌رو، لپتو و لیندبرگ آشکارساز دو بعدی هریس را به حالت سه بعدی توسعه دادند [24] و سپس برای مقاوم نمودن آن نسبت به مقیاس، از عملگر نرمال دو بعدی لاپلاسین استفاده نمودند[25]. در این روش، رویدادهای مکان-زمانی با به‌دست آوردن بیشینه عملگر نرمال دو بعدی لاپلاسین تحت مقیاس‌های مکان و زمان، شناسایی می‌شوند.

در این مقاله روشی برپایه فرهنگ لغت[vii] برای شناسایی از روی نحوه راه رفتن با استفاده از توصیف‌گرهای بافت پویا ارائه شده است. در این روش، به‌جای توصیف کل تصویر[22]، از مزایای روش محلی برای استخراج ویژگی‌های کلیدی استفاده شده و سپس هر ویژگی، پس از توصیف، به لغتی در فرهنگ لغت نگاشته می‌شود. توصیف‌گر LBP-TOP نیز به توصیف‌گری مقاوم به چرخش توسعه داده شده است. 

در ادامه، مراحل روش ارائه شده برای شناسایی به اختصار معرفی و سپس هریک از مراحل به طور کامل شرح داده می‌شوند. پس از آن نتایج تجربی به‌دست آمده بر روی دو پایگاه داده مطرح می‌گردند.

 

1- راه حل پیشنهادی

مراحل اصلی روش ارائه شده در شکل (1) بیان شده‌اند. در این روش، ابتدا نواحی مهم و کلیدی توسط یک آشکارساز مکان- زمان که یک روش محلی است، از دنباله‌های ویدئویی آموزشی استخراج می‌شوند و با استفاده از الگوی دودویی محلی با سه صفحه متعامد، توصیف می‌گردند. در این مرحله به ازای هر یک از نقاط کلیدی یک بردار ویژگی به‌دست می‌آید. سپس با استفاده از یک الگوریتم دسته‌بندی[viii] مناسب، بردارهای ویژگی به‌دست آمده به کلمات یک فرهنگ لغت نگاشت می‌گردند. سرانجام هر کلاس آموزشی با هیستوگرامی از تعداد تکرارهای کلمات این فرهنگ لغت مدل می‌شود. از ‌این‌رو، برای هر کلاس آموزشی یک مدل یکتا به‌دست می‌آید. برای یک دنباله ویدئویی تست، پس از به‌دست آوردن بردار ویژگی و مقایسه آن با فرهنگ لغت موجود، هیستوگرام نمونه تست ایجاد می‌گردد. سپس با کمک یک الگوریتم طبقه‌بندی مناسب، نمونه تست به مدل آموزشی مناسب نسبت داده می‌شود.

 

شکل )1( : مراحل  روش پیشنهادی

 

2- استخراج نواحی کلیدی

حرکات انسان در یک دنباله تصویر، دارای تغییرات آماری در دو بعد مکان و زمان هستند. نقاط نشان دهنده این تغییرات، به‌علت دارا بودن اطلاعات کلیدی به عنوان نقاط برجسته برای تحلیل و بررسی حرکات محسوب می‌شوند[26, 27]. در این مرحله نواحی کلیدی با استفاده از آشکار ساز نقاط کلیدی مکان‌-‌زمان که نشان دهنده تغییرات ناگهانی در دو بعد مکان و زمان است، مشخص می‌شوند. در این روش، توصیفی از صحنه به‌صورت مجموعه‌ای از نواحی کلیدی مستقل در اطراف هر یک از این نقاط بیان می‌شوند(شکل 2). سپس از ترکیب این نواحی، یک نمایش کلی به وجود می‌آید.

 

شکل )2(:  نواحی کلیدی به‌دست آمده از آشکار ساز نقاط کلیدی مکان‌-‌زمان

 

2-1- آشکارساز نقاط کلیدی مکان‌-‌زمان

ویژگی‌های محلی تصویر یک نمایش انتزاعی از الگوهای تصویر و یا تفسیری از داده‌های ویدئویی را بیان می‌کنند. لپتو و لیندبرگ [25] برای کشف رویدادهای مکانی و زمانی، آشکارساز دو بعدی هریس و فورستنر [23] را که نقاط کلیدی محلی در بعد مکان را شناسایی می‌کند، توسعه داده‌اند. در این روش نواحی‌ای که دارای تغییرات محلی در دو بعد مکان و زمان هستند، شناسایی شده و سپس با بیشینه کردن عملگر نرمال دو بعدی لاپلاسین تحت مقیاس‌های مکان و زمان، وسعت نواحی کشف شده تخمین زده می‌شوند.

برای مدل کردن دنباله مکانی و زمانی تصویر از تابع  استفاده می‌شود و نمایش خطی آن  با کانولوشن  و یک هسته گاوسی ناهمسان با متغیر مکانی   و متغیر زمانی  نشان داده می‌شود:

(1)

 

در حالی که هسته گاوسی جداپذیر در دو بعد مکان و زمان بدین صورت تعریف می‌شود:

(2)

 

استفاده از یک پارامتر مقیاس جداگانه برای حوزه زمان ضروری است، زیرا حوزه‌های مکان و زمان برای هر رویداد کاملأ مستقل هستند. از این‌رو، یک ماتریس گشتاور مرتبه‌ 2 مکان‌-‌زمان معرفی می‌گردد.

این ماتریس 3 3 و شامل مشتقات مرتبه اول در دو بعد مکان و زمان است:

(3)

 

 

روابط بین مقیاس‌های یکپارچه ،  و  مقیاس‌های محلی ،  به‌صورت  و  بیان می‌شود. مشتقات مرتبه اول بدین صورت تعریف می‌شود: 

(4)

 

(5)

 

(6)

 

برای شناسایی نقاط کلیدی، نواحی از  که در آن مقادیر ویژه  از تابع  دارای مقادیر بالایی هستند، جستجو می‌گردند.

(7)

 

 

با معرفی نسبت‌های  و  می‌توان تابع  را به‌صورت زیر بیان نمود:

(8)

 

 

از آنجایی که  است، فرض  را در نظر می‌گیریم. مقدار بیشینه k برابر با  بوده، با در نظر گرفتن  به‌دست می‌آید.

با فرض مقادیر بالای k، نقاط بیشینه  نشان دهنده نقاطی با تغییرات قابل توجهی در هر دو جهت مکان و زمان است. با در نظر گرفتن مقدار بیشینه 23 برای  و  ، مقدار k مورد نیاز برای تابع ،  به‌دست می‌آید. از این‌رو، شناسایی نقاط کلیدی مکان‌-‌زمان تصویر  با استفاده از نقاط بیشینه  در دو حوزه مکان و زمان انجام می‌گیرد.

3- توصیف نواحی کلیدی

بافت‌ پویا دنباله‌ای از تصاویر متحرک با تغییرات آماری در طی زمان است. از این‌رو، می‌توان از توصیف‌گر‌های بافت پویا برای توصیف راه رفتن افراد در فضای مکان – زمان استفاده نمود. بنابراین، در این مرحله از الگوی دودویی محلی با سه صفحه متعامد (LBP-TOP) برای توصیف نواحی کلیدی به‌دست آمده در مرحله قبل بهره گرفته می‌شود.

این الگو تعمیمی از الگوی دودویی محلی(LBP) است. الگو LBP یک کد دودویی تولید می‌کند که از مقایسه یک همسایگی از نقاط با نقطه مرکزی به‌دست می‌آید و توصیف کننده الگوی بافت محلی است. با استفاده از LBP، بافت تصویر با کمک هیستوگرام کدهای دودویی برای هر نقطه در صفحه مکانی توصیف می‌گردد. این در صورتی است که در هنگام استفاده از LBP-TOP، اطلاعات دنباله ویدئویی در دو بعد مکان و زمان در نظر گرفته می‌شود.

 

3-1- الگوی دودویی محلی

الگوی دودویی محلی(LBP) یک عملگر برای توصیف ساختار مکانی بافت محلی تصویر است. اجالا و همکارانش در توسعه کارهای گذشته خود [28, 29]، روشی برپایه الگوهای دودویی محلی ارائه داده‌اند که از نظر علمی و محاسباتی ساده بوده، نسبت به تغییرات مقیاس و چرخش مقاوم است [30].

در این الگو، ابتدا بافت تصویر به‌صورت یک همسایگی محلی 3 3  تعریف می‌شود که gi(i=c,0,…,7) برابر با مقدار روشنایی نقاط این همسایگی است(شکل 3).

 

 

شکل )3( : همسایگی یکنواختمدور 3 3 [30]

 

مقدار الگو با مقایسه روشنایی نقطه مرکزی با نقاط دیگر در این همسایگی به‌دست می‌آید. اگر مقدار روشنایی آن‌ها بیشتر یا مساوی مقدار نقطه مرکزی باشد، یک و در غیر این صورت مقدار صفر جایگزین این نقاط خواهد شد. این مقدار برای نقاط قطری با درون‌یابی تخمین زده می‌شود(شکل 4).

 

شکل )4( :  نمایش عملگر پایه LBP

 

در این مرحله الگوی دودویی از تفاوت روشنایی نقطه مرکزی و نقاط مجاور در همسایگی مذکور به‌دست می‌آید:

(9)

 

 

در این فرمول s تابع علامت، gcمقدار روشنایی نقطه مرکزی و gp مقدار روشنایی نقاط همسایگی هستند. متغیرهای P و R نیز به‌ترتیب تعداد نقاط و شعاع همسایگی را مشخص می‌کنند. شکل )5) نمونه‌هایی از مجموعه‌های همسایگی متقارن برای مقادیر مختلف (P,R) را نشان می‌دهد.

 

شکل )5( : مجموعه‌های همسایگی (8،1)،(16،2)،(24،3)[30]

 

با فرض داشتن تصویری با مختصات N*M، پس از محاسبه مقدار الگو برای هر نقطه، بافت تصویر  با یک هیستوگرام بیان می‌شود:

(10)

 

که K مقدار بیشینه الگوی دودویی محلی است.

با چرخش تصویر، مقادیر  می‌توانند بر روی محیط دایره و گرداگرد  حرکت نمایند. از این‌رو، چرخش یک الگوی دودویی خاص به طور طبیعی، یک مقدار جدید برای الگوی LBP به‌دست می‌دهد. برای حذف تأثیر چرخش و دادن یک برچسب یکتا به هر الگوی دودویی محلی مقاوم به چرخش، عملگر LBP بدین فرم معرفی می‌شود:

(11)

 

 

که  یک چرخش مدور ساعتگرد (شیفت به راست) به تعداد i برروی x اعمال می‌کند و این چرخش تا رسیدن هر الگو به مقدار کمینه خود ادامه می‌یابد.

کارایی الگوهای متفاوت به ساختار مکانی الگوها نسبت داده می‌شود. برای این منظور یک معیارهمسان (U) تعریف می‌شود.

(12)

 

 

مقدار U در یک الگوی دودویی محلی، نشان دهنده تعداد تغییرات مکانی (انتقال بین 0 و 1) است. برای مثال، مقدار U در الگوی 00000000 برابر با 0 و در الگوی 1000000 برابر با 2 است(شکل 6 ).

الگوی دودویی محلی یکنواخت مقاوم به چرخش به الگوی ظاهری یکسان رجوع می‌کند که انتقال و یا انفصال‌های محدودی در یک نمایش دودویی مدور دارد.

(13)

 

الگوهای دودویی یکنواخت( ) که بیانگر ویژگی‌های اصلی بافت هستند، اکثریت الگوها را تشکیل می‌دهند. از این‌رو، به تمام الگوهای دودویی غیریکنواخت یک مقدار یکسان (P+1) تخصیص داده می‌شود.

 

شکل )6( : الگوی دودویی یکنواخت به ازای 8 P=[31]

 

3-2- الگوی دودویی محلی هیستوگرام فوریه

الگوی دودویی محلی هیستوگرام فوریه(LBP-HF)[ix]، یک توصیف‌گر مقاوم به چرخش مبتنی بر الگوی دودویی یکنواخت(LBPu2)  است که با محاسبه تبدیل فوریه گسسته بر روی هیستوگرام‌های LBPu2به‌دست می‌آید. برخلاف اکثر توصیف‌گرهای بافت که به‌صورت محلی مقاوم به چرخش هستند، این توصیف‌گر به‌صورت کلی برای سراسر ناحیه قابل توصیف نسبت به چرخش مقاوم است[32].

با فرض هیستوگرام‌ LBPu2 به‌صورت ، دوران تصویر ورودی I به اندازه درجه، باعث یک انتقال مدور در هیستوگرام در امتداد هر سطر است.            

(14)

 

 

 

در اینجا، از تبدیل فوریه گسسته[x] برای حذف تأثیر چرخش بر روی سطرهای هیستوگرام استفاده می‌شود.

(15)

 

که  مقدار تبدیل فوریه مربوط به nامین سطر هیستوگرام  است.

از آنجایی که یک انتقال مدور باعث یک تغییر زاویه فاز در ضرایب تبدیل فوریه می‌گردد، لذا با فرض  معادله زیر به‌دست می‌آید:

(16)

 

بنابراین، برای هر  و :

(17)

 

که   نشان دهنده مزدوج  خواهد بود. با در نظر گرفتن  ،  و ، ویژگی‌های :

(18)

 

 

نسبت به انتقالات مدور سطرهای هیستوگرام  مقاوم بوده و در نتیجه به چرخش تصویر ورودی I(x,y) نیز مقاوم است.

 

3-3- LBP-TOP توسعه یافته

عملگر LBP توصیف کننده الگوی بافت تصویر در بعد مکان است؛ در صورتی که توصیف‌گر LBP-TOP، اطلاعات دنباله ویدئویی را در دو بعد مکان (صفحه xy) و زمان (صفحات xt و yt) در نظر می‌گیرد(شکل 7).

 

شکل )7( : نمایش صفحات yt ,xt ,xy راه رفتن[22].

 

همانطور که در شکل )8) دیده می‌شود، ویژگی‌های هر یک از صفحات yt,xt,xy به‌طور جداگانه محاسبه می‌گردد و هیستوگرام مربوط به هر صفحه مشخص می‌شود. سپس هیستوگرام نهایی با الحاق این هیستوگرام‌ها به‌دست می‌آید.

 

شکل )8( : تشکیل هیستوگرام ویژگی[16]

 

از آنجایی که تغییرات ظاهری که در بعد مکان رخ می‌دهند، بیشتر از تغییرات حرکتی در بعد زمان هستند، برای تغییرات در بعد مکان وزن بیشتری در نظر گرفته می‌شود. برای این هدف، پس از استخراج نقاط کلیدی دنباله ویدئویی، اطراف هر نقطه کلیدی سه صفحه در فضای مکانی xy ( در ،  و  فضای مکانی) و یک صفحه در مرکز هر فضای زمانی (xt و yt) با ابعاد مشخص(25 25) در نظر گرفته می‌شود. به صفحه مرکزی مکانی نیز وزنی سه برابر وزن صفحات دیگر اعمال می‌شود. از این‌رو نسبت وزن بعد مکان به زمان پنج به دو خواهد بود(شکل 9).

 

شکل )9( : توصیف ناحیه کلیدی با کمک عملگر LBP-TOP

 

در بسیاری از کاربردهای پیشین توصیف‌گر LBP-TOP، از عملگر LBP ساده برای توصیف صفحات متعامد استفاده شده است [33]. اما در این مقاله، فضای مکانی (صفحه xy) با استفاده از عملگر LBP-HF و فضای زمانی (صفحات xt و yt) با کمک عملگر LBP مقاوم به چرخش( ) توصیف می‌گردند. از این‌رو توصیف‌گر LBP_TOP توسعه یافته نسبت به چرخش و تغییرات مقیاس مقاوم است. 

 

3-4- تحلیل چند نمایشی

برای افزایش دقت مرحله توصیف، از روش چندنمایشی استفاده می‌شود. هدف این روش ترکیب چندین هسته از عملگرهای برپایه LBP، با پارامترهای P و R متفاوت است و هیستوگرام نهایی از اتصال هیستوگرام‌های حاصل از هر هسته به دست می‌آید(شکل 10). در اینجا برای توصیف هر صفحه از توصیف‌گر LBP-TOP با دو هسته 8  و 16 نقطه همسایگی و شعاع های یک و دو استفاده می‌شود.

 

شکل )10( : تحلیل روش چند نمایشی

 

در پایان این مرحله هر ناحیه کلیدی با یک هیستوگرام و یا بردار ویژگی، و هر دنباله ویدئویی با مجموعه‌ای از بردارهای ویژگی مشخص می‌شود.

 

4- ایجاد فرهنگ لغت

تعداد نواحی کلیدی به‌دست آمده در مرحله اول برای هر دنباله ویدئویی متفاوت خواهد بود. از این‌رو، پس از اعمال توصیف‌گر بافت پویا، تعداد بردارهای ویژگی به‌دست آمده برای هر دنباله نیز متفاوت خواهد بود و این مسأله، مقایسه دنباله‌ها را با مشکل مواجه می‌کند. با ایجاد فرهنگ لغت می‌توان بر این مشکل غلبه نمود.

برای ایجاد فرهنگ لغت، با کمک الگوریتم K-means سلسله مراتبی، بردارهای ویژگی مجموعه آموزشی دسته‌بندی می‌شوند، هر دسته نشان دهنده یک کلمه است و این کلمات در کنار یکدیگر یک فرهنگ لغت تشکیل می‌دهند(شکل 11). هر کلمه در اینجا نمایانگر ناحیه‌ای از دنباله ویدئویی است که دارای تغییراتی در بعد مکان و زمان است، مانند زانو، قوزک پا و آرنج.

 

 

شکل )11( : ایجاد فرهنگ لغت از مجموعه بردارهای ویژگی

سپس برای بهبود کارایی، درصدی از دسته‌هایی با توزیع یکنواخت، به علت دارا بودن سهم کمتر در نتیجه نهایی، از فرهنگ لغت حذف می‌شوند.

 

4-1- K-means سلسله مراتبی

اجرای الگوریتم K-means سلسله مراتبی یک درخت K- d می‌سازد که K تعداد دسته در هر اجرا و d تعداد لایه‌های درخت هستند. در این روش، ابتدا الگوریتم K-means اصلی برروی داده‌ها اعمال می‌گردد و K مرکز دسته به‌دست می‌آید. سپس داده‌ها به K گروه تقسیم می‌شوند؛ به طوری که هر گروه شامل نزدیکترین داده‌ها به مرکز یک دسته خاص است. پس از آن، الگوریتم K-means اصلی، جداگانه برروی هر گروه اعمال می‌گردد و این کار به‌صورت بازگشتی تا d لایه انجام می‌گیرد. پس از اجرای کامل الگوریتم K-means سلسله مراتبی، Kdدسته (برگ‌های درخت) به‌دست می‌آید. در این مقاله از فاصله اقلیدسی به عنوان معیار‌ فاصله برای تعیین فاصله داده‌ها و مراکز دسته‌ها استفاده شده است.

 

5- استخراج هیستوگرام

در این مرحله، هر دنباله ویدئویی آموزشی با هیستوگرامی از تعداد تکرارهای کلمات مربوط به دنباله مورد نظر در فرهنگ لغت تعریف می‌شود(شکل 12). هیستوگرام به‌دست آمده به عنوان مدل آموزشی برای دنباله ویدئویی ذخیره می‌گردد.

 

 

شکل (12) : هیستوگرامی از تعداد تکراهای کلمات فرهنگ لغت

 

6- تطبیق الگو

در این مرحله، نواحی کلیدی دنباله ویدئویی تست استخراج و توصیف می‌گردند. سپس مجموعه بردارهای ویژگی به‌دست آمده، با کلمات فرهنگ لغت ایجاد شده در مرحله یادگیری مقایسه می‌شوند و هر بردار در دسته متناسب با خود قرار می‌گیرد. سپس هیستوگرام نهایی دنباله ویدئویی تست به‌دست می‌آید. در این مرحله، با استفاده از یک طبقه‌بند مناسب هیستوگرام دنباله تست با مدل‌های آموزشی به‌دست آمده در فرایند یادگیری مقایسه می‌شود و نمونه تست به کلاس مشابه منطبق می‌گردد.

در این مقاله برای طبقه‌بندی از ماشین بردار پشتیبان(SVM) استفاده شده است. این طبقه‌بند شامل توابع هسته‌ای مختلفی است. از این‌رو، نتایج با برخی توابع از قبیل "چند جمله‌ای"، "گوسی" و "تابع پایه شعاعی[xi]" بررسی شد و سرانجام به‌علت نتایج بهتری که با تابع هسته‌ای" چندجمله‌ای" به‌دست آمد، این تابع به عنوان هسته SVM انتخاب گردید.

 

7- نتایج تجربی

در این بخش، کارایی روش پیشنهادی بر روی دو پایگاه داده KTH [33] و IXMAS  [34] بررسی می‌گردد.

از آنجایی که در روش ارائه شده، برای ایجاد فرهنگ لغت از الگوریتم K-means استفاده شده است و این الگوریتم به‌علت تعیین دسته‌بندی اولیه تصادفی، نتایج متفاوتی در هر اجرا ارائه می‌دهد. از این‌رو، نتایج بیان شده پس از بررسی 10 بار اجرای الگوریتم تعیین گردیده‌اند.

 

7-1-   پایگاه داده KTH

پایگاه داده KTH یکی از مشهورترین و پیچیده ترین پایگاه داده‌های تحلیل حرکات انسان است. این پایگاه داده شامل 25 نفر است که هر یک شش عمل انجام می‌دهند. در این مقاله روش پیشنهادی بر روی عمل راه رفتن افراد این پایگاه داده اعمال می‌شود. دنباله‌های تصویر افراد در شرایط متفاوتی تهیه شده است که در این‌جا سه حالت آن در نظر گرفته می‌شود: دنباله راه رفتن نرمال، دنباله راه رفتن با تغییر در مقیاس و دنباله راه رفتن با تغییر در پوشش افراد. نمونه‌هایی از این دنباله‌ها در شکل )13) قابل مشاهده است. زاویه دید در دنباله‌های اول و سوم از نیمرخ و دنباله دوم به‌صورت قطری است.

 

 

شکل )13( : نمونه‌هایی از پایگاه داده KTH.

 

از چپ به راست به ترتیب دنباله‌های راه رفتن نرمال، راه رفتن با تغییر در مقیاس و راه رفتن با تغییر در پوشش افراد نمایش داده شده است.

قابل توجه است که پس‌زمینه در پایگاه داده KTH ثابت است و از آنجایی که روش پیشنهادی بر روی نقاط کلیدی که نقاطی با تغییرات در مکان و زمان هستند، انجام می‌گیرد، نیازی به حذف پس‌زمینه وجود ندارد.

در فرایند یادگیری، فرهنگ لغت با استفاده از الگوریتم K-means سلسله مراتبی و با در نظر گرفتن K=2 , level=10 با (10^2) 1024 کلمه ایجاد می‌شود و سپس با حذف دسته‌های یکنواخت 700 کلمه باقی می‌ماند. در پایان، برای هر فرد یک مدل آموزشی و به ازای 25 فرد موجود در پایگاه داده، 25 مدل آموزشی خواهیم داشت.

در جدول (1) نتایج روش ارائه شده بر روی پایگاه داده KTH نشان داده شده است.

 

جدول (1) : نتایج روش پیشنهادی بر روی پایگاه داده KTH

(الف)

تغییر پوشش

تغییر پوشش

تغییر مقیاس

تغییر مقیاس

نرمال

نرمال

مجموعه آموزش

تغییر مقیاس

نرمال

تغییر پوشش

نرمال

تغییر پوشش

تغییر مقیاس

مجموعه تست

63.8%

75.3%

63%

72%

77.3%

73.1%

نتایج

 

(ب)

نرمال و تغییر مقیاس

نرمال و

تغییر پوشش

تغییر مقیاس و

تغییر پوشش

مجموعه آموزش

تغییر پوشش

تغییر مقیاس

نرمال

مجموعه تست

78.4%

74.7%

82.4%

نتایج

 

در جدول (1- الف) از سه حالت موجود، دنباله‌های ویدئویی در یک حالت برای یادگیری و در حالتی دیگر برای تست به‌کار می‌رود. در جدول (1- ب) از سه حالت موجود، دو حالت برای یادگیری و یک حالت برای تست استفاده می‌شود. میانگین نتایج جدول الف، 70.75 درصد و میانگین نتایج جدول ب، 78.5 درصد است. همان‌طور که از نتایج بر می‌آید، در روش دوم به علت وجود اطلاعات و جزییات بیشتر در مرحله یادگیری، نتایج بهتری به‌دست آمده است.

با بررسی جدول (1- الف) در می‌یابیم دنباله "راه رفتن نرمال"، شامل اطلاعاتی از هر دو دنباله دیگر است. این دنباله با دنباله "راه رفتن با تغییر مقیاس" از نظر پوشش و بافت تصویر، و با دنباله "راه رفتن با تغییر پوشش" از لحاظ زاویه دید و مقیاس مشابه است. از این‌رو، استفاده از دنباله "راه رفتن نرمال" برای مرحله یادگیری، اطلاعات مناسب و نتایج قابل قبولی را ارائه می‌دهد. دنباله‌های "راه رفتن نرمال" و "راه رفتن با تغییر پوشش" تناسب بیشتری با یکدیگر دارند و از این‌رو، اطلاعات مناسبتر و نتایج بهتری را ارائه می‌دهند. استفاده از دنباله "راه رفتن با تغییر مقیاس" برای یادگیری و دنباله "راه رفتن با تغییر پوشش" برای تست و با برعکس، به‌علت عدم تناسب در مقیاس، زاویه دید و پوشش، پایین‌ترین نتایج را ارائه می‌دهند.

در جدول (1- ب) نیز شرایط یکسانی صدق می‌کند. استفاده از دنباله‌های "راه رفتن با تغییر مقیاس" و "تغییر پوشش" برای مرحله یادگیری، به‌علت دربرداشتن اطلاعات مقیاس، زاویه دید و پوشش در شرایط متفاوت، بهترین نتیجه را ارائه می‌دهد. در صورتی که با استفاده از دنباله‌های "راه رفتن نرمال" و "تغییر پوشش" برای مرحله یادگیری، اطلاعات مقیاس و زاویه دید نادیده گرفته شده و با استفاده از دنباله‌های "راه رفتن نرمال" و "تغییر مقیاس" برای مرحله یادگیری، اطلاعات پوشش نادیده گرفته می‌شوند و از این‌رو نتایج پایین‌تری به‌دست می‌آید.

 

7-2-   پایگاه داده IXMAS

پایگاه داده IXMAS یکی از مشهورترین پایگاه داده‌های چندنمایی[xii] تحلیل حرکات انسان است. این پایگاه داده شامل 12 نفر است که هریک 14 عمل انجام می‌دهند. در این مقاله روش پیشنهادی بر روی عمل راه رفتن 10 نفر اعمال می‌شود. دنباله‌های تصویر در این پایگاه داده تحت پنج نما گرفته شده‌اند که در این‌جا چهار نما مد نظر است و نمای پنجم که از بالای سر فرد گرفته شده است، به‌علت دارا نبودن اطلاعات کافی حذف می‌شود (شکل 14).

 

 

شکل )14( : نمونه‌هایی از پایگاه داده IXMAS.

 

نمونه‌ها از چپ به راست به ترتیب با دوربین‌های شماره 1، 2، 3 و 4 گرفته شده‌اند.

در این پایگاه داده، همان‌طور که در شکل (15) دیده می‌شود، راه رفتن هر فرد به‌صورت دایره‌ای انجام می‌گیرد.

 

 

شکل (15) : نمونه‌ای از حرکت فردی تحت دوربین شماره 1.

در فرایند یادگیری، فرهنگ لغت با استفاده از الگوریتم K-means سلسله مراتبی و با در نظر گرفتن k=2 , level=11 با (11^2) 2048 کلمه ایجاد می‌شود و سپس با حذف دسته‌های یکنواخت 1700 کلمه باقی می‌ماند. در این پایگاه داده، برای هر فرد چهار مدل آموزشی و هر مدل تحت یک نما به‌دست می‌آید. از این‌رو در پایان فرایند یادگیری، به ازای 10 فرد موجود در پایگاه داده، 40 مدل آموزشی خواهیم داشت.

در این پایگاه داده هر فرد عمل راه رفتن را سه بار و در شرایط یکسان انجام می‌دهد. از این‌رو تحت هر نما، برای هر فرد سه دنباله ویدئویی راه رفتن وجود دارد. برای آزمایش روش پیشنهادی، هر بار دو دنباله برای مرحله یادگیری و دنباله دیگر برای تست به‌کار برده می‌شود. در جدول (2) نتایج روش پیشنهادی بر روی پایگاه داده IXMAS نشان داده شده است. همان گونه که در این جدول قابل مشاهده است، میانگین نتایج 73.8 درصد است.

 

جدول (2) : نتایج روش پیشنهادی بر روی پایگاه داده IXMAS

 

دوربین 1

دوربین 2

دوربین 3

دوربین 4

نتایج

66.5%

72.2%

81%

75.5%

 

نتایج برای هر دوربین به طور جداگانه بیان شده است. همان گونه که در این جدول دیده می‌شود، دنباله تصویر به‌دست آمده از دوربین شماره 3 اطلاعات بیشتری در برداشته و از این‌رو بهترین نتایج را ارائه می‌دهد.

 

7-3- تحلیل و بررسی

در مقاله [35] روش ارائه شده بر روی پایگاه داده KTH برای شناسایی حرکات انسان اعمال گردید و نتایج مطلوبی به‌دست آمد. سپس سعی شد تا از روشی مشابه بر روی داده‌های عمل راه رفتن در این پایگاه داده، برای شناسایی از روی نحوه راه رفتن نیز استفاده گردد. از این‌رو در این مقاله به‌جای استفاده از پایگاه داده‌های ارائه شده برای راه رفتن، از پایگاه داده‌های KTH و IXMAS، که در زمینه تحلیل حرکات انسان هستند، استفاده شده است.

در زندگی عادی عمل راه رفتن در شرایط مختلفی از زاویه دید، چرخش، سرعت، مقیاس و تغییرات ظاهری انجام می‌گیرد و یک روش مطلوب برای شناسایی باید همه این شرایط را در نظر گیرد. هر یک از پایگاه داده‌های ارائه شده برای راه رفتن، برخی شرایط را در هنگام راه رفتن اعمال کرده، برخی دیگر را، با توجه به روش مورد استفاده، ثابت در نظر می‌گیرند. برای مثال، در برخی پایگاه داده‌ها، تغییرات ظاهری نادیده گرفته شده و راه رفتن افراد با پوشش و شکل ظاهری یکسان انجام می‌گیرد، در برخی نیز، در زمان راه رفتن، مقیاس و یا زاویه دید ثابت در نظر گرفته می‌شود، در صورتی که در این مقاله با استفاده از پایگاه داده‌های مذکور، عمل راه رفتن در شرایط مختلف بررسی شده است. روش ارائه شده در این مقاله، با در نظر گرفتن اطلاعات در بعد زمان، نسبت به تغییرات سرعت مقاوم است. همچنین، به‌علت استفاده از ویژگی‌های محلی نسبت به زاویه دید و تغییرات ظاهری مقاوم بوده، با توسعه توصیف‌گر LBP-TOP، نسبت به چرخش و مقیاس نیز مقاوم است، از این‌رو، نتایج مناسبی به‌دست آمده است.

همان‌گونه که ذکر شد، از آنجایی که تاکنون از این پایگاه داده‌ها برای هدف "شناسایی از روی نحوه راه رفتن" استفاده نشده است، از این‌رو امکان مقایسه دقیق با کارهای گذشته وجود ندارد، اما در مقاله [22]، که منبعی برای این تحقیق بوده است، روشی مبتنی بر بافت پویا برای شناسایی از روی نحوه راه رفتن بر روی پایگاه داده CMU، با میانگین نتایج 82%، ارائه شده است. در مقاله مذکور فقط تغییرات ظاهری و سرعت در نظر گرفته شده است. همچنین، نیاز به حذف پس زمینه یکی از محدودیت های روش ارائه شده در این مقاله است. جداسازی پس زمینه باعث بهبود نتایج می‌گردد، اما از نظر محاسباتی بسیار پیچیده و زمان‌بر است. از این رو، سعی می‌شود در صورت امکان از این مرحله اجتناب کرده، بر روی داده‌های اصلی کار شود. در روش ارائه شده در این تحقیق، بدلیل استفاده از اطلاعات محلی نیازی به حذف پس زمینه نبوده و همچنین در پایگاه داده‌ مورد استفاده نیز شرایط بیشتری در نظر گرفته شده است. لذا با توجه به بهبود‌های انجام شده و مقایسه نتایج با مقاله [22]، پیش‌بینی می‌شود که روش ارائه شده در این تحقیق نتایج مطلوبی ارائه داده است.

 

8- نتیجه‌گیری

در این مقاله روشی بر پایه فرهنگ لغت برای شناسایی انسان از روی نحوه راه رفتن ارائه شده است. راه رفتن انسان دارای اطلاعات مهمی در هر دو بعد مکان و زمان است از این‌رو، در این روش از توصیف‌گرهای بافت پویا بهره گرفته‌ شده است. در این مقاله توصیف‌گر LBP-TOP  به عنوان یک توصیف‌گر مقاوم به چرخش توسعه یافته و از آن برای توصیف ویژگی‌های محلی استفاده می‌شود. سپس با کمک الگوریتم K-means سلسله مراتبی و ایجاد فرهنگ لغتی از بردارهای ویژگی، هر دنباله ویدئویی از راه رفتن افراد با هیستوگرامی از تکرار کلمات این فرهنگ لغت نمایش می‌یابد. کارایی روش پیشنهادی بر روی دو پایگاه داده KTH و multi view IXMAS  بررسی گردیده و نتایج مطلوبی به‌دست آمده است.

 



[i] Self-Similarity Plots

[ii] Shape Variance-Based Frieze Pattern

[iii] Cubic Higher order Local Autocorrelation

[iv] Dynamic Texture

[v] Local Binary Pattern–Three Orthogonal Planes

[vi] Silhouette

[vii] Virtual Dictionary

[viii] Clustering

[ix] Local Binary Pattern Fourier Histogram

[x] Discrete Fourier Transform

[xi] Radial Basis Function

[xii] Multiview

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[1]          C. B. Abdelkader, L. Davis, and R. Cutler, "Motion-based recognition of people in eigengait space", pp. 267-272, 2002.
[2]          J. Han and B. Bhanu, "Individual recognition using gait energy image", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 2, pp. 316-322, 2006.
[3]          S. Fazekas, T. Amiaz, D. Chetverikov, and N. Kiryati, "Dynamic texture detection based on motion analysis", International Journal of Computer Vision, Vol. 82 , No. 1, pp. 48-63, 2009.
[4]          F. Tafazzoli and R. Safabakhsh, "Model-based human gait recognition using leg and arm movements", Engineering Applications of Artificial Intelligence, Vol. 23, No. 8, pp. 1237-1246, 2010.
[5]          G. V. Veres, L. Gordon, J. N. Carter, and M. S. Nixon, "What image information is important in silhouette-based gait recognition?", CVPR, pp. 776-782, 2004.
[6]          G. Zhao, L. Cui, and H. Li, "Gait recognition using fractal scale", Pattern Analysis & Applications, Vol. 10, No. 3, pp. 235-246, 2007.
[7]          V. Kellokumpu, G. Zhao, and M. Pietikäinen, "Human activity recognition using a dynamic texture based method", BMVC, pp. 1-10, 2008.
[8]          M. Blank, L. Gorelick, E. Shechtman, M. Irani, and R. Basri, "Actions as space-time shapes", ICCV, pp. 1395-1402, 2005.
[9]          R. Mattivi and L. Shao, "Human Action Recognition Using LBP-TOP as Sparse Spatio-Temporal Feature Descriptor", CAIP, pp. 740–747, 2009.
[10]          C. BenAbdelkader, R. G. Cutler, and L. S. Davis, "Gait recognition using image self-similarity", EURASIP Journal on Applied Signal Processing, Vol. 24, No. 4, pp. 572-585, 2004.
[11]          Y. Liu, R. Collins, and Y. Tsin, "Gait sequence analysis using frieze patterns", Computer Vision—ECCV, pp. 733-736, 2002.
[12]          S. Lee, Y. Liu, and R. Collins, "Shape variation-based frieze pattern for robust gait recognition", IEEE Conference on Computer Vision and Pattern Recognition, pp. 1-8, 2007.
[13]          G. C. Huang and Y. H. Wang, "Human gait recognition based on XT plane energy images", International Conference on Wavelet Analysis and Pattern Recognition, ICWAPR, pp. 1134-1138, 2007.
[14]          T. Kobayashi and N. Otsu, "Action and simultaneous multiple-person identification using cubic higher-order local auto-correlation", Pattern Recognition, pp. 741-744, 2004.
[15]          J. Ren, X. Jiang, and J. Yuan, "Dynamic texture recognition using enhanced lbp features", IEEE Int. Conf. Acoustics, Speech, and Signal Processing (ICASSP), 2013.
[16]          Z. Guoying, "Dynamic Texture Recognition Using Local Binary Patterns with an Application to Facial Expressions", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 6, pp. 915-928, 2007.
[17]          J. Komulainen, A. Hadid, and M. Pietikäinen, "Face Spoofing Detection using Dynamic Texture", International Workshop on Computer Vision With Local Binary Pattern Variants - ACCV, 2012.
[18]          G. Zhao, M. Pietikäinen and A. Hadid, "Local spatiotemporal descriptors for visual recognition of spoken phrases", International Workshop on Human-centered Multimedia, pp. 57-66, 2007.
[19]          Q. Zhu, N. Chatlani, and J. J. Soraghan, "1-D Local binary patterns based VAD used INHMM-based improved speech recognition", the 20th European Signal Processing Conference (EUSIPCO), pp. 1633-1637, 2012.
[20]          B. Kim, S.-H. Lee, M.-K. Sohn, D.-J. Kim, and H. Kim, "Hand Pose Recognition Using Local Binary Patterns and Random Forests Classifier", Bulletin of Networking, Computing, Systems, and Software, Vol. 2, No. 1, pp. 64-65, 2013.
[21]          V. Kellokumpu, G. Zhao, and M. Pietikäinen, "Recognition of human actions using texture descriptors", Machine Vision and Applications, Vol. 22, No. 5, pp. 767-780, 2011.
[22]          M. Tistarelli, M. Nixon, V. Kellokumpu, G. Zhao, S. Li, and M. Pietikäinen, "Dynamic Texture Based Gait Recognition", ICB, LNCS. 5558, pp. 1000-1009, 2009.
[23]          C. Harris and M. Stephens, "A combined corner and edge detector", Alvey Vision Conference, pp. 147-152, 1988.
[24]          I. Laptev and T. Lindeberg, "Space-time interest points", International Conference on Computer Vision, pp. 432-439, 2003.
[25]          I. Laptev, "On space-time interest points", International Journal of Computer Vision, Vol. 64, No. 2/3, pp. 107-123, 2005.
[26]          I. Laptev, M. Marszalek, C. Schmid, and B. Rozenfeld, "Learning realistic human actions from movies", IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1-8, 2008.
[27]          A. Kovashka and K. Grauman, "Learning a hierarchy of discriminative space-time neighborhood features for human action recognition", IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2046-2053, 2010.
[28]          T. Ojala, K. Valkealahti, E. Oja, and M. Pietikäinen, "Texture discrimination with multidimensional distributions of signed gray-level differences", Pattern Recognition, Vol. 34, No. 3, pp. 727-739, 2001.
[29]          M. Pietikäinen, T. Ojala, and Z. Xu, "Rotation-invariant texture classification using feature distributions", Pattern Recognition, Vol. 33, No. 1, pp. 43-52, 2000.
[30]          T. Ojala, M. Pietikäinen, and T. Maenpaa, "Multiresolution gray-scale and rotation invariant texture classification with local binary patterns", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp. 971-987, 2002.
[31]          Z. Guo, L. Zhang, and D. Zhang, "Rotation invariant texture classification using LBP variance (LBPV) with global matching", Pattern Recognition, Vol. 43, No.3, pp. 706-719, 2010.
T. Ahonen, J. Matas, C. He, and M.