Document Type : Research Article
Authors
Dept. Electrical and Computer Engineering, Isfahan University of Technology, Isfahan, Iran
Abstract
Keywords
امروزه بررسی رفتار و حرکات انسان از جمله راه رفتن، توجه بسیاری از محققان را به خود جلب نموده و بهعلت دامنه کاربرد وسیع از اهمیت بالایی برخوردار است. از جمله کاربردهای آن میتوان در شاخصگذاری ویدئو، سیستمهای نظارتی، تحلیل فیلمهای ورزشی، محیطهای هوشمند و سیستمهای تشخیص هویت اشاره نمود.
شیوه راه رفتن هر شخص در مقایسه با افراد دیگر یکتاست. گام برداشتن انسان، فعالیتی پیچیده است که شامل حرکات همزمان اعضای بدن و تعامل بین آنهاست. از اینرو، میتوان از تفاوت بین حرکات و ساختار اعضای بدن در افراد مختلف، به عنوان ویژگیهای خاص برای شناسایی استفاده نمود. از مزایای روش شناسایی از روی نحوه راه رفتن انسان میتوان به امکان شناسایی فرد در فواصل دور، عدم نیاز به اطلاع و یا همکاری فرد و همچنین عدم امکان پنهان نمودن آن از دید ناظر و سیستم مراقبتی اشاره نمود. این روش میتواند در محیطهای عمومی و با یک دنباله تصاویر با وضوح پایین از حرکات فرد، کارایی بالایی نسبت به سایر روشهای شناسایی ارائه دهد. برای این دسته از سیستمها کاربردهای فراوانی وجود دارد که از آن جمله میتوان به نظارت، کنترل و تحلیل فعالیتهای انسان اشاره نمود.
هدف این مقاله بررسی تحقیقات پژوهشی در زمینه تحلیل حرکات و ارائه روشی برای شناسایی از روی نحوه راه رفتن افراد است. تاکنون رهیافتهای متعددی در این زمینه ارائه شده است که در اکثر آنها از اطلاعات حرکتی[1-3] یا شکل ظاهری [4-6] بهره گرفته شده است اما بررسیها نشان دادهاند که استناد به یک بعد به تنهایی نمیتواند تمامی اطلاعات مورد نیاز را فراهم کند. روشهای مبتنی بر شکل به طور طبیعی نسبت به تغییرات ظاهری مانند حمل کولهپشتی حساس هستند. این روشها نسبت به نویز، زمینه نویزی و یا حتی زمینه متحرک حساسیت کمتری نشان میدهند، اما زمان بر بوده، هزینه محاسباتی زیادی برای تطبیقهای پیچیده به سیستم تحمیل میکنند. روشهای مبتنی بر حرکت هیچ مدل خاصی برای بدن انسان در نظر نمیگیرند و از تغییرات وابسته به زمان، مانند تغییر در سرعت راه رفتن به عنوان اطلاعات استفاده میکنند.
تحلیل اطلاعات مکان-زمان شامل اطلاعات مکانی به معنای حالت ظاهری فرد در هر زمان و نیز اطلاعات زمانی به معنای موقعیت حرکتی بدن فرد در هر مکان است. امروزه تحلیل و بررسی حرکات انسان در فضای مکان-زمان بسیار مورد توجه قرار گرفته است [7-9]. از اینرو، در تحقیقات اخیر برای شناسایی از روی نحوه راه رفتن نیز از اطلاعات در دو بعد مکان و زمان بهره گرفته شده است. برای نمونه، بنعبدالقادر و همکارانش [10] از نمودار خود متشابه[i] برای شناسایی استفاده نمودند. لیو و همکارانش [11] الگوی حاشیه که الگوی دیگری برای شناسایی است، معرفی کردند که در [12] به یک الگوی حاشیه برپایه واریانس شکل[ii]، توسعه مییابد. هنگ و ونگ [13] نیز شناسایی را با کمک تصاویر انرژی صفحه xt بهدست آمده از فضای xyt انجام دادند و کوبیا و اتسو [14] از خودهمبستگی محلی سطح بالای مکعبی[iii] برای شناسایی حرکات بهره گرفتند.
بافتهای پویا[iv] در طی زمان تغییرات آماری دارند. ازاینرو، به طور ذاتی شامل اطلاعات حرکتی هستند، همچنین، بهعلت محاسبه ویژگیهای بافت پویا بر روی تصاویر ویدئویی، اطلاعات مربوط به شکل ظاهری (موقعیت، جهت و زاویه دید) هم وارد مسأله میگردد. از آنجایی که حرکات انسان از جمله راه رفتن نیز شامل اطلاعاتی در دو بعد مکان و زمان هستند، ازاینرو میتوان از توصیفگرهای بافت پویا برای تحلیل استفاده نمود. الگوی دودویی محلی با سه صفحه متعامد[v](LBP-TOP) نمونهای از توصیفگرهای بافت پویاست [15] که تاکنون در حوزههای مختلف مانند توصیف صورت [16, 17]، گفتار [18, 19]، حالت دست [20]، تشخیص حرکات [7, 21] و شناسایی انسان از روی نحوه راه رفتن[22] بهطور موفقیتآمیزی بهکار گرفته شده است.
استخراج ویژگیهای مناسب و متمایز یک پیشنیاز اساسی برای مرحله توصیف است که به دو روش سراسری و محلی انجام میگیرد. در روش سراسری از تمام اطلاعات دنباله ویدئویی استفاده میشود. در این روش طرحواره[vi] با کمک الگوریتمهای جداسازی پسزمینه استخراج میشود و سپس کل طرحواره به عنوان ناحیه کلیدی در نظر گرفته شده و به ورودی توصیفگر داده میشود. در این روش همه نقاط از اهمیت یکسانی برخوردارند، به همین علت، این روش توانایی تعمیمدهی بالایی دارد، اما این روش نسبت به نویز، زاویه دید و همپوشانی حساس است. برای نمونه، بلنک و همکارانش [8] با در نظر گرفتن نقاط متناظر در هر فریم و جداسازی پسزمینه، طرحواره انسان را در هر فریم استخراج نموده، با کنار هم قرار دادن این طرحوارهها یک حجم سه بعدی که اطلاعات مهم مکانی و زمانی را در بردارد، تشکیل میدهند. سپس حرکت مورد نظر با کمک یک توصیفگر مناسب تحلیل میشود. وجود نویز در کارایی این روش بسیار مؤثر است، زیرا وجود نویز در کناره حجم مکان-زمان در بهدست آوردن نقاط برجسته اختلال ایجاد میکند.
در روش محلی اطلاعات نواحی خاصی از دنباله ویدئویی که شامل تغییرات ناگهانی در دو بعد زمان و مکان هستند، در نظر گرفته میشود. هر ناحیه به طور جداگانه با کمک یک توصیفگر مناسب توصیف گردیده، سپس با ترکیب اطلاعات نواحی مختلف، یک توصیف کلی به وجود میآید. در روش محلی نیازی به جداسازی پس زمینه وجود ندارد. همچنین، این روش نسبت به همپوشانی جزیی، تغییر در زاویه دید و شکل ظاهری نیز مقاوم است. در این روش بهعلت عدم استفاده از تمام نقاط دنباله ویدئویی ممکن است برخی اطلاعات از دست برود، اما با استخراج نقاط کلیدی مناسب و متمایز، اطلاعات اساسی دنباله ویدئویی استخراج میشود. از این رو، این روش عملکرد مناسبی خواهد داشت. آشکارساز دو بعدی هریس یک آشکار ساز معروف در بعد مکان است [23]، اما از آنجایی که نقاط شناسایی شده در یک بعد مکان و یا زمان تمامی اطلاعات مورد نیاز را در اختیار قرار نمیدهند، از اینرو، لپتو و لیندبرگ آشکارساز دو بعدی هریس را به حالت سه بعدی توسعه دادند [24] و سپس برای مقاوم نمودن آن نسبت به مقیاس، از عملگر نرمال دو بعدی لاپلاسین استفاده نمودند[25]. در این روش، رویدادهای مکان-زمانی با بهدست آوردن بیشینه عملگر نرمال دو بعدی لاپلاسین تحت مقیاسهای مکان و زمان، شناسایی میشوند.
در این مقاله روشی برپایه فرهنگ لغت[vii] برای شناسایی از روی نحوه راه رفتن با استفاده از توصیفگرهای بافت پویا ارائه شده است. در این روش، بهجای توصیف کل تصویر[22]، از مزایای روش محلی برای استخراج ویژگیهای کلیدی استفاده شده و سپس هر ویژگی، پس از توصیف، به لغتی در فرهنگ لغت نگاشته میشود. توصیفگر LBP-TOP نیز به توصیفگری مقاوم به چرخش توسعه داده شده است.
در ادامه، مراحل روش ارائه شده برای شناسایی به اختصار معرفی و سپس هریک از مراحل به طور کامل شرح داده میشوند. پس از آن نتایج تجربی بهدست آمده بر روی دو پایگاه داده مطرح میگردند.
مراحل اصلی روش ارائه شده در شکل (1) بیان شدهاند. در این روش، ابتدا نواحی مهم و کلیدی توسط یک آشکارساز مکان- زمان که یک روش محلی است، از دنبالههای ویدئویی آموزشی استخراج میشوند و با استفاده از الگوی دودویی محلی با سه صفحه متعامد، توصیف میگردند. در این مرحله به ازای هر یک از نقاط کلیدی یک بردار ویژگی بهدست میآید. سپس با استفاده از یک الگوریتم دستهبندی[viii] مناسب، بردارهای ویژگی بهدست آمده به کلمات یک فرهنگ لغت نگاشت میگردند. سرانجام هر کلاس آموزشی با هیستوگرامی از تعداد تکرارهای کلمات این فرهنگ لغت مدل میشود. از اینرو، برای هر کلاس آموزشی یک مدل یکتا بهدست میآید. برای یک دنباله ویدئویی تست، پس از بهدست آوردن بردار ویژگی و مقایسه آن با فرهنگ لغت موجود، هیستوگرام نمونه تست ایجاد میگردد. سپس با کمک یک الگوریتم طبقهبندی مناسب، نمونه تست به مدل آموزشی مناسب نسبت داده میشود.
شکل )1( : مراحل روش پیشنهادی
حرکات انسان در یک دنباله تصویر، دارای تغییرات آماری در دو بعد مکان و زمان هستند. نقاط نشان دهنده این تغییرات، بهعلت دارا بودن اطلاعات کلیدی به عنوان نقاط برجسته برای تحلیل و بررسی حرکات محسوب میشوند[26, 27]. در این مرحله نواحی کلیدی با استفاده از آشکار ساز نقاط کلیدی مکان-زمان که نشان دهنده تغییرات ناگهانی در دو بعد مکان و زمان است، مشخص میشوند. در این روش، توصیفی از صحنه بهصورت مجموعهای از نواحی کلیدی مستقل در اطراف هر یک از این نقاط بیان میشوند(شکل 2). سپس از ترکیب این نواحی، یک نمایش کلی به وجود میآید.
شکل )2(: نواحی کلیدی بهدست آمده از آشکار ساز نقاط کلیدی مکان-زمان
ویژگیهای محلی تصویر یک نمایش انتزاعی از الگوهای تصویر و یا تفسیری از دادههای ویدئویی را بیان میکنند. لپتو و لیندبرگ [25] برای کشف رویدادهای مکانی و زمانی، آشکارساز دو بعدی هریس و فورستنر [23] را که نقاط کلیدی محلی در بعد مکان را شناسایی میکند، توسعه دادهاند. در این روش نواحیای که دارای تغییرات محلی در دو بعد مکان و زمان هستند، شناسایی شده و سپس با بیشینه کردن عملگر نرمال دو بعدی لاپلاسین تحت مقیاسهای مکان و زمان، وسعت نواحی کشف شده تخمین زده میشوند.
برای مدل کردن دنباله مکانی و زمانی تصویر از تابع استفاده میشود و نمایش خطی آن با کانولوشن و یک هسته گاوسی ناهمسان با متغیر مکانی و متغیر زمانی نشان داده میشود:
(1) |
در حالی که هسته گاوسی جداپذیر در دو بعد مکان و زمان بدین صورت تعریف میشود:
(2) |
استفاده از یک پارامتر مقیاس جداگانه برای حوزه زمان ضروری است، زیرا حوزههای مکان و زمان برای هر رویداد کاملأ مستقل هستند. از اینرو، یک ماتریس گشتاور مرتبه 2 مکان-زمان معرفی میگردد.
این ماتریس 3 3 و شامل مشتقات مرتبه اول در دو بعد مکان و زمان است:
(3) |
روابط بین مقیاسهای یکپارچه ، و مقیاسهای محلی ، بهصورت و بیان میشود. مشتقات مرتبه اول بدین صورت تعریف میشود:
(4) |
|
(5) |
|
(6) |
برای شناسایی نقاط کلیدی، نواحی از که در آن مقادیر ویژه از تابع دارای مقادیر بالایی هستند، جستجو میگردند.
(7) |
|
با معرفی نسبتهای و میتوان تابع را بهصورت زیر بیان نمود:
(8) |
از آنجایی که است، فرض را در نظر میگیریم. مقدار بیشینه k برابر با بوده، با در نظر گرفتن بهدست میآید.
با فرض مقادیر بالای k، نقاط بیشینه نشان دهنده نقاطی با تغییرات قابل توجهی در هر دو جهت مکان و زمان است. با در نظر گرفتن مقدار بیشینه 23 برای و ، مقدار k مورد نیاز برای تابع ، بهدست میآید. از اینرو، شناسایی نقاط کلیدی مکان-زمان تصویر با استفاده از نقاط بیشینه در دو حوزه مکان و زمان انجام میگیرد.
بافت پویا دنبالهای از تصاویر متحرک با تغییرات آماری در طی زمان است. از اینرو، میتوان از توصیفگرهای بافت پویا برای توصیف راه رفتن افراد در فضای مکان – زمان استفاده نمود. بنابراین، در این مرحله از الگوی دودویی محلی با سه صفحه متعامد (LBP-TOP) برای توصیف نواحی کلیدی بهدست آمده در مرحله قبل بهره گرفته میشود.
این الگو تعمیمی از الگوی دودویی محلی(LBP) است. الگو LBP یک کد دودویی تولید میکند که از مقایسه یک همسایگی از نقاط با نقطه مرکزی بهدست میآید و توصیف کننده الگوی بافت محلی است. با استفاده از LBP، بافت تصویر با کمک هیستوگرام کدهای دودویی برای هر نقطه در صفحه مکانی توصیف میگردد. این در صورتی است که در هنگام استفاده از LBP-TOP، اطلاعات دنباله ویدئویی در دو بعد مکان و زمان در نظر گرفته میشود.
الگوی دودویی محلی(LBP) یک عملگر برای توصیف ساختار مکانی بافت محلی تصویر است. اجالا و همکارانش در توسعه کارهای گذشته خود [28, 29]، روشی برپایه الگوهای دودویی محلی ارائه دادهاند که از نظر علمی و محاسباتی ساده بوده، نسبت به تغییرات مقیاس و چرخش مقاوم است [30].
در این الگو، ابتدا بافت تصویر بهصورت یک همسایگی محلی 3 3 تعریف میشود که gi(i=c,0,…,7) برابر با مقدار روشنایی نقاط این همسایگی است(شکل 3).
شکل )3( : همسایگی یکنواختمدور 3 3 [30]
مقدار الگو با مقایسه روشنایی نقطه مرکزی با نقاط دیگر در این همسایگی بهدست میآید. اگر مقدار روشنایی آنها بیشتر یا مساوی مقدار نقطه مرکزی باشد، یک و در غیر این صورت مقدار صفر جایگزین این نقاط خواهد شد. این مقدار برای نقاط قطری با درونیابی تخمین زده میشود(شکل 4).
شکل )4( : نمایش عملگر پایه LBP
در این مرحله الگوی دودویی از تفاوت روشنایی نقطه مرکزی و نقاط مجاور در همسایگی مذکور بهدست میآید:
(9) |
در این فرمول s تابع علامت، gcمقدار روشنایی نقطه مرکزی و gp مقدار روشنایی نقاط همسایگی هستند. متغیرهای P و R نیز بهترتیب تعداد نقاط و شعاع همسایگی را مشخص میکنند. شکل )5) نمونههایی از مجموعههای همسایگی متقارن برای مقادیر مختلف (P,R) را نشان میدهد.
شکل )5( : مجموعههای همسایگی (8،1)،(16،2)،(24،3)[30]
با فرض داشتن تصویری با مختصات N*M، پس از محاسبه مقدار الگو برای هر نقطه، بافت تصویر با یک هیستوگرام بیان میشود:
(10) |
که K مقدار بیشینه الگوی دودویی محلی است.
با چرخش تصویر، مقادیر میتوانند بر روی محیط دایره و گرداگرد حرکت نمایند. از اینرو، چرخش یک الگوی دودویی خاص به طور طبیعی، یک مقدار جدید برای الگوی LBP بهدست میدهد. برای حذف تأثیر چرخش و دادن یک برچسب یکتا به هر الگوی دودویی محلی مقاوم به چرخش، عملگر LBP بدین فرم معرفی میشود:
(11) |
که یک چرخش مدور ساعتگرد (شیفت به راست) به تعداد i برروی x اعمال میکند و این چرخش تا رسیدن هر الگو به مقدار کمینه خود ادامه مییابد.
کارایی الگوهای متفاوت به ساختار مکانی الگوها نسبت داده میشود. برای این منظور یک معیارهمسان (U) تعریف میشود.
(12) |
مقدار U در یک الگوی دودویی محلی، نشان دهنده تعداد تغییرات مکانی (انتقال بین 0 و 1) است. برای مثال، مقدار U در الگوی 00000000 برابر با 0 و در الگوی 1000000 برابر با 2 است(شکل 6 ).
الگوی دودویی محلی یکنواخت مقاوم به چرخش به الگوی ظاهری یکسان رجوع میکند که انتقال و یا انفصالهای محدودی در یک نمایش دودویی مدور دارد.
(13) |
الگوهای دودویی یکنواخت( ) که بیانگر ویژگیهای اصلی بافت هستند، اکثریت الگوها را تشکیل میدهند. از اینرو، به تمام الگوهای دودویی غیریکنواخت یک مقدار یکسان (P+1) تخصیص داده میشود.
شکل )6( : الگوی دودویی یکنواخت به ازای 8 P=[31]
الگوی دودویی محلی هیستوگرام فوریه(LBP-HF)[ix]، یک توصیفگر مقاوم به چرخش مبتنی بر الگوی دودویی یکنواخت(LBPu2) است که با محاسبه تبدیل فوریه گسسته بر روی هیستوگرامهای LBPu2بهدست میآید. برخلاف اکثر توصیفگرهای بافت که بهصورت محلی مقاوم به چرخش هستند، این توصیفگر بهصورت کلی برای سراسر ناحیه قابل توصیف نسبت به چرخش مقاوم است[32].
با فرض هیستوگرام LBPu2 بهصورت ، دوران تصویر ورودی I به اندازه درجه، باعث یک انتقال مدور در هیستوگرام در امتداد هر سطر است.
(14) |
در اینجا، از تبدیل فوریه گسسته[x] برای حذف تأثیر چرخش بر روی سطرهای هیستوگرام استفاده میشود.
(15) |
که مقدار تبدیل فوریه مربوط به nامین سطر هیستوگرام است.
از آنجایی که یک انتقال مدور باعث یک تغییر زاویه فاز در ضرایب تبدیل فوریه میگردد، لذا با فرض معادله زیر بهدست میآید:
(16) |
بنابراین، برای هر و :
(17) |
که نشان دهنده مزدوج خواهد بود. با در نظر گرفتن ، و ، ویژگیهای :
(18) |
نسبت به انتقالات مدور سطرهای هیستوگرام مقاوم بوده و در نتیجه به چرخش تصویر ورودی I(x,y) نیز مقاوم است.
عملگر LBP توصیف کننده الگوی بافت تصویر در بعد مکان است؛ در صورتی که توصیفگر LBP-TOP، اطلاعات دنباله ویدئویی را در دو بعد مکان (صفحه xy) و زمان (صفحات xt و yt) در نظر میگیرد(شکل 7).
شکل )7( : نمایش صفحات yt ,xt ,xy راه رفتن[22].
همانطور که در شکل )8) دیده میشود، ویژگیهای هر یک از صفحات yt,xt,xy بهطور جداگانه محاسبه میگردد و هیستوگرام مربوط به هر صفحه مشخص میشود. سپس هیستوگرام نهایی با الحاق این هیستوگرامها بهدست میآید.
شکل )8( : تشکیل هیستوگرام ویژگی[16]
از آنجایی که تغییرات ظاهری که در بعد مکان رخ میدهند، بیشتر از تغییرات حرکتی در بعد زمان هستند، برای تغییرات در بعد مکان وزن بیشتری در نظر گرفته میشود. برای این هدف، پس از استخراج نقاط کلیدی دنباله ویدئویی، اطراف هر نقطه کلیدی سه صفحه در فضای مکانی xy ( در ، و فضای مکانی) و یک صفحه در مرکز هر فضای زمانی (xt و yt) با ابعاد مشخص(25 25) در نظر گرفته میشود. به صفحه مرکزی مکانی نیز وزنی سه برابر وزن صفحات دیگر اعمال میشود. از اینرو نسبت وزن بعد مکان به زمان پنج به دو خواهد بود(شکل 9).
شکل )9( : توصیف ناحیه کلیدی با کمک عملگر LBP-TOP
در بسیاری از کاربردهای پیشین توصیفگر LBP-TOP، از عملگر LBP ساده برای توصیف صفحات متعامد استفاده شده است [33]. اما در این مقاله، فضای مکانی (صفحه xy) با استفاده از عملگر LBP-HF و فضای زمانی (صفحات xt و yt) با کمک عملگر LBP مقاوم به چرخش( ) توصیف میگردند. از اینرو توصیفگر LBP_TOP توسعه یافته نسبت به چرخش و تغییرات مقیاس مقاوم است.
برای افزایش دقت مرحله توصیف، از روش چندنمایشی استفاده میشود. هدف این روش ترکیب چندین هسته از عملگرهای برپایه LBP، با پارامترهای P و R متفاوت است و هیستوگرام نهایی از اتصال هیستوگرامهای حاصل از هر هسته به دست میآید(شکل 10). در اینجا برای توصیف هر صفحه از توصیفگر LBP-TOP با دو هسته 8 و 16 نقطه همسایگی و شعاع های یک و دو استفاده میشود.
شکل )10( : تحلیل روش چند نمایشی
در پایان این مرحله هر ناحیه کلیدی با یک هیستوگرام و یا بردار ویژگی، و هر دنباله ویدئویی با مجموعهای از بردارهای ویژگی مشخص میشود.
تعداد نواحی کلیدی بهدست آمده در مرحله اول برای هر دنباله ویدئویی متفاوت خواهد بود. از اینرو، پس از اعمال توصیفگر بافت پویا، تعداد بردارهای ویژگی بهدست آمده برای هر دنباله نیز متفاوت خواهد بود و این مسأله، مقایسه دنبالهها را با مشکل مواجه میکند. با ایجاد فرهنگ لغت میتوان بر این مشکل غلبه نمود.
برای ایجاد فرهنگ لغت، با کمک الگوریتم K-means سلسله مراتبی، بردارهای ویژگی مجموعه آموزشی دستهبندی میشوند، هر دسته نشان دهنده یک کلمه است و این کلمات در کنار یکدیگر یک فرهنگ لغت تشکیل میدهند(شکل 11). هر کلمه در اینجا نمایانگر ناحیهای از دنباله ویدئویی است که دارای تغییراتی در بعد مکان و زمان است، مانند زانو، قوزک پا و آرنج.
شکل )11( : ایجاد فرهنگ لغت از مجموعه بردارهای ویژگی
سپس برای بهبود کارایی، درصدی از دستههایی با توزیع یکنواخت، به علت دارا بودن سهم کمتر در نتیجه نهایی، از فرهنگ لغت حذف میشوند.
اجرای الگوریتم K-means سلسله مراتبی یک درخت K- d میسازد که K تعداد دسته در هر اجرا و d تعداد لایههای درخت هستند. در این روش، ابتدا الگوریتم K-means اصلی برروی دادهها اعمال میگردد و K مرکز دسته بهدست میآید. سپس دادهها به K گروه تقسیم میشوند؛ به طوری که هر گروه شامل نزدیکترین دادهها به مرکز یک دسته خاص است. پس از آن، الگوریتم K-means اصلی، جداگانه برروی هر گروه اعمال میگردد و این کار بهصورت بازگشتی تا d لایه انجام میگیرد. پس از اجرای کامل الگوریتم K-means سلسله مراتبی، Kdدسته (برگهای درخت) بهدست میآید. در این مقاله از فاصله اقلیدسی به عنوان معیار فاصله برای تعیین فاصله دادهها و مراکز دستهها استفاده شده است.
در این مرحله، هر دنباله ویدئویی آموزشی با هیستوگرامی از تعداد تکرارهای کلمات مربوط به دنباله مورد نظر در فرهنگ لغت تعریف میشود(شکل 12). هیستوگرام بهدست آمده به عنوان مدل آموزشی برای دنباله ویدئویی ذخیره میگردد.
شکل (12) : هیستوگرامی از تعداد تکراهای کلمات فرهنگ لغت
در این مرحله، نواحی کلیدی دنباله ویدئویی تست استخراج و توصیف میگردند. سپس مجموعه بردارهای ویژگی بهدست آمده، با کلمات فرهنگ لغت ایجاد شده در مرحله یادگیری مقایسه میشوند و هر بردار در دسته متناسب با خود قرار میگیرد. سپس هیستوگرام نهایی دنباله ویدئویی تست بهدست میآید. در این مرحله، با استفاده از یک طبقهبند مناسب هیستوگرام دنباله تست با مدلهای آموزشی بهدست آمده در فرایند یادگیری مقایسه میشود و نمونه تست به کلاس مشابه منطبق میگردد.
در این مقاله برای طبقهبندی از ماشین بردار پشتیبان(SVM) استفاده شده است. این طبقهبند شامل توابع هستهای مختلفی است. از اینرو، نتایج با برخی توابع از قبیل "چند جملهای"، "گوسی" و "تابع پایه شعاعی[xi]" بررسی شد و سرانجام بهعلت نتایج بهتری که با تابع هستهای" چندجملهای" بهدست آمد، این تابع به عنوان هسته SVM انتخاب گردید.
در این بخش، کارایی روش پیشنهادی بر روی دو پایگاه داده KTH [33] و IXMAS [34] بررسی میگردد.
از آنجایی که در روش ارائه شده، برای ایجاد فرهنگ لغت از الگوریتم K-means استفاده شده است و این الگوریتم بهعلت تعیین دستهبندی اولیه تصادفی، نتایج متفاوتی در هر اجرا ارائه میدهد. از اینرو، نتایج بیان شده پس از بررسی 10 بار اجرای الگوریتم تعیین گردیدهاند.
پایگاه داده KTH یکی از مشهورترین و پیچیده ترین پایگاه دادههای تحلیل حرکات انسان است. این پایگاه داده شامل 25 نفر است که هر یک شش عمل انجام میدهند. در این مقاله روش پیشنهادی بر روی عمل راه رفتن افراد این پایگاه داده اعمال میشود. دنبالههای تصویر افراد در شرایط متفاوتی تهیه شده است که در اینجا سه حالت آن در نظر گرفته میشود: دنباله راه رفتن نرمال، دنباله راه رفتن با تغییر در مقیاس و دنباله راه رفتن با تغییر در پوشش افراد. نمونههایی از این دنبالهها در شکل )13) قابل مشاهده است. زاویه دید در دنبالههای اول و سوم از نیمرخ و دنباله دوم بهصورت قطری است.
شکل )13( : نمونههایی از پایگاه داده KTH.
از چپ به راست به ترتیب دنبالههای راه رفتن نرمال، راه رفتن با تغییر در مقیاس و راه رفتن با تغییر در پوشش افراد نمایش داده شده است.
قابل توجه است که پسزمینه در پایگاه داده KTH ثابت است و از آنجایی که روش پیشنهادی بر روی نقاط کلیدی که نقاطی با تغییرات در مکان و زمان هستند، انجام میگیرد، نیازی به حذف پسزمینه وجود ندارد.
در فرایند یادگیری، فرهنگ لغت با استفاده از الگوریتم K-means سلسله مراتبی و با در نظر گرفتن K=2 , level=10 با (10^2) 1024 کلمه ایجاد میشود و سپس با حذف دستههای یکنواخت 700 کلمه باقی میماند. در پایان، برای هر فرد یک مدل آموزشی و به ازای 25 فرد موجود در پایگاه داده، 25 مدل آموزشی خواهیم داشت.
در جدول (1) نتایج روش ارائه شده بر روی پایگاه داده KTH نشان داده شده است.
جدول (1) : نتایج روش پیشنهادی بر روی پایگاه داده KTH
(الف)
تغییر پوشش |
تغییر پوشش |
تغییر مقیاس |
تغییر مقیاس |
نرمال |
نرمال |
مجموعه آموزش |
تغییر مقیاس |
نرمال |
تغییر پوشش |
نرمال |
تغییر پوشش |
تغییر مقیاس |
مجموعه تست |
63.8% |
75.3% |
63% |
72% |
77.3% |
73.1% |
نتایج |
(ب)
نرمال و تغییر مقیاس |
نرمال و تغییر پوشش |
تغییر مقیاس و تغییر پوشش |
مجموعه آموزش |
تغییر پوشش |
تغییر مقیاس |
نرمال |
مجموعه تست |
78.4% |
74.7% |
82.4% |
نتایج |
در جدول (1- الف) از سه حالت موجود، دنبالههای ویدئویی در یک حالت برای یادگیری و در حالتی دیگر برای تست بهکار میرود. در جدول (1- ب) از سه حالت موجود، دو حالت برای یادگیری و یک حالت برای تست استفاده میشود. میانگین نتایج جدول الف، 70.75 درصد و میانگین نتایج جدول ب، 78.5 درصد است. همانطور که از نتایج بر میآید، در روش دوم به علت وجود اطلاعات و جزییات بیشتر در مرحله یادگیری، نتایج بهتری بهدست آمده است.
با بررسی جدول (1- الف) در مییابیم دنباله "راه رفتن نرمال"، شامل اطلاعاتی از هر دو دنباله دیگر است. این دنباله با دنباله "راه رفتن با تغییر مقیاس" از نظر پوشش و بافت تصویر، و با دنباله "راه رفتن با تغییر پوشش" از لحاظ زاویه دید و مقیاس مشابه است. از اینرو، استفاده از دنباله "راه رفتن نرمال" برای مرحله یادگیری، اطلاعات مناسب و نتایج قابل قبولی را ارائه میدهد. دنبالههای "راه رفتن نرمال" و "راه رفتن با تغییر پوشش" تناسب بیشتری با یکدیگر دارند و از اینرو، اطلاعات مناسبتر و نتایج بهتری را ارائه میدهند. استفاده از دنباله "راه رفتن با تغییر مقیاس" برای یادگیری و دنباله "راه رفتن با تغییر پوشش" برای تست و با برعکس، بهعلت عدم تناسب در مقیاس، زاویه دید و پوشش، پایینترین نتایج را ارائه میدهند.
در جدول (1- ب) نیز شرایط یکسانی صدق میکند. استفاده از دنبالههای "راه رفتن با تغییر مقیاس" و "تغییر پوشش" برای مرحله یادگیری، بهعلت دربرداشتن اطلاعات مقیاس، زاویه دید و پوشش در شرایط متفاوت، بهترین نتیجه را ارائه میدهد. در صورتی که با استفاده از دنبالههای "راه رفتن نرمال" و "تغییر پوشش" برای مرحله یادگیری، اطلاعات مقیاس و زاویه دید نادیده گرفته شده و با استفاده از دنبالههای "راه رفتن نرمال" و "تغییر مقیاس" برای مرحله یادگیری، اطلاعات پوشش نادیده گرفته میشوند و از اینرو نتایج پایینتری بهدست میآید.
پایگاه داده IXMAS یکی از مشهورترین پایگاه دادههای چندنمایی[xii] تحلیل حرکات انسان است. این پایگاه داده شامل 12 نفر است که هریک 14 عمل انجام میدهند. در این مقاله روش پیشنهادی بر روی عمل راه رفتن 10 نفر اعمال میشود. دنبالههای تصویر در این پایگاه داده تحت پنج نما گرفته شدهاند که در اینجا چهار نما مد نظر است و نمای پنجم که از بالای سر فرد گرفته شده است، بهعلت دارا نبودن اطلاعات کافی حذف میشود (شکل 14).
شکل )14( : نمونههایی از پایگاه داده IXMAS.
نمونهها از چپ به راست به ترتیب با دوربینهای شماره 1، 2، 3 و 4 گرفته شدهاند.
در این پایگاه داده، همانطور که در شکل (15) دیده میشود، راه رفتن هر فرد بهصورت دایرهای انجام میگیرد.
شکل (15) : نمونهای از حرکت فردی تحت دوربین شماره 1.
در فرایند یادگیری، فرهنگ لغت با استفاده از الگوریتم K-means سلسله مراتبی و با در نظر گرفتن k=2 , level=11 با (11^2) 2048 کلمه ایجاد میشود و سپس با حذف دستههای یکنواخت 1700 کلمه باقی میماند. در این پایگاه داده، برای هر فرد چهار مدل آموزشی و هر مدل تحت یک نما بهدست میآید. از اینرو در پایان فرایند یادگیری، به ازای 10 فرد موجود در پایگاه داده، 40 مدل آموزشی خواهیم داشت.
در این پایگاه داده هر فرد عمل راه رفتن را سه بار و در شرایط یکسان انجام میدهد. از اینرو تحت هر نما، برای هر فرد سه دنباله ویدئویی راه رفتن وجود دارد. برای آزمایش روش پیشنهادی، هر بار دو دنباله برای مرحله یادگیری و دنباله دیگر برای تست بهکار برده میشود. در جدول (2) نتایج روش پیشنهادی بر روی پایگاه داده IXMAS نشان داده شده است. همان گونه که در این جدول قابل مشاهده است، میانگین نتایج 73.8 درصد است.
جدول (2) : نتایج روش پیشنهادی بر روی پایگاه داده IXMAS
|
دوربین 1 |
دوربین 2 |
دوربین 3 |
دوربین 4 |
نتایج |
66.5% |
72.2% |
81% |
75.5% |
در مقاله [35] روش ارائه شده بر روی پایگاه داده KTH برای شناسایی حرکات انسان اعمال گردید و نتایج مطلوبی بهدست آمد. سپس سعی شد تا از روشی مشابه بر روی دادههای عمل راه رفتن در این پایگاه داده، برای شناسایی از روی نحوه راه رفتن نیز استفاده گردد. از اینرو در این مقاله بهجای استفاده از پایگاه دادههای ارائه شده برای راه رفتن، از پایگاه دادههای KTH و IXMAS، که در زمینه تحلیل حرکات انسان هستند، استفاده شده است.
در زندگی عادی عمل راه رفتن در شرایط مختلفی از زاویه دید، چرخش، سرعت، مقیاس و تغییرات ظاهری انجام میگیرد و یک روش مطلوب برای شناسایی باید همه این شرایط را در نظر گیرد. هر یک از پایگاه دادههای ارائه شده برای راه رفتن، برخی شرایط را در هنگام راه رفتن اعمال کرده، برخی دیگر را، با توجه به روش مورد استفاده، ثابت در نظر میگیرند. برای مثال، در برخی پایگاه دادهها، تغییرات ظاهری نادیده گرفته شده و راه رفتن افراد با پوشش و شکل ظاهری یکسان انجام میگیرد، در برخی نیز، در زمان راه رفتن، مقیاس و یا زاویه دید ثابت در نظر گرفته میشود، در صورتی که در این مقاله با استفاده از پایگاه دادههای مذکور، عمل راه رفتن در شرایط مختلف بررسی شده است. روش ارائه شده در این مقاله، با در نظر گرفتن اطلاعات در بعد زمان، نسبت به تغییرات سرعت مقاوم است. همچنین، بهعلت استفاده از ویژگیهای محلی نسبت به زاویه دید و تغییرات ظاهری مقاوم بوده، با توسعه توصیفگر LBP-TOP، نسبت به چرخش و مقیاس نیز مقاوم است، از اینرو، نتایج مناسبی بهدست آمده است.
همانگونه که ذکر شد، از آنجایی که تاکنون از این پایگاه دادهها برای هدف "شناسایی از روی نحوه راه رفتن" استفاده نشده است، از اینرو امکان مقایسه دقیق با کارهای گذشته وجود ندارد، اما در مقاله [22]، که منبعی برای این تحقیق بوده است، روشی مبتنی بر بافت پویا برای شناسایی از روی نحوه راه رفتن بر روی پایگاه داده CMU، با میانگین نتایج 82%، ارائه شده است. در مقاله مذکور فقط تغییرات ظاهری و سرعت در نظر گرفته شده است. همچنین، نیاز به حذف پس زمینه یکی از محدودیت های روش ارائه شده در این مقاله است. جداسازی پس زمینه باعث بهبود نتایج میگردد، اما از نظر محاسباتی بسیار پیچیده و زمانبر است. از این رو، سعی میشود در صورت امکان از این مرحله اجتناب کرده، بر روی دادههای اصلی کار شود. در روش ارائه شده در این تحقیق، بدلیل استفاده از اطلاعات محلی نیازی به حذف پس زمینه نبوده و همچنین در پایگاه داده مورد استفاده نیز شرایط بیشتری در نظر گرفته شده است. لذا با توجه به بهبودهای انجام شده و مقایسه نتایج با مقاله [22]، پیشبینی میشود که روش ارائه شده در این تحقیق نتایج مطلوبی ارائه داده است.
در این مقاله روشی بر پایه فرهنگ لغت برای شناسایی انسان از روی نحوه راه رفتن ارائه شده است. راه رفتن انسان دارای اطلاعات مهمی در هر دو بعد مکان و زمان است از اینرو، در این روش از توصیفگرهای بافت پویا بهره گرفته شده است. در این مقاله توصیفگر LBP-TOP به عنوان یک توصیفگر مقاوم به چرخش توسعه یافته و از آن برای توصیف ویژگیهای محلی استفاده میشود. سپس با کمک الگوریتم K-means سلسله مراتبی و ایجاد فرهنگ لغتی از بردارهای ویژگی، هر دنباله ویدئویی از راه رفتن افراد با هیستوگرامی از تکرار کلمات این فرهنگ لغت نمایش مییابد. کارایی روش پیشنهادی بر روی دو پایگاه داده KTH و multi view IXMAS بررسی گردیده و نتایج مطلوبی بهدست آمده است.
[i] Self-Similarity Plots
[ii] Shape Variance-Based Frieze Pattern
[iii] Cubic Higher order Local Autocorrelation
[iv] Dynamic Texture
[v] Local Binary Pattern–Three Orthogonal Planes
[vi] Silhouette
[vii] Virtual Dictionary
[viii] Clustering
[ix] Local Binary Pattern Fourier Histogram
[x] Discrete Fourier Transform
[xi] Radial Basis Function