Improvement in detection of presence in forbidden locations in video anomaly using optical flow map

Document Type : Research Article

Authors

1 Dept. of Electrical Engineering, University of Isfahan, Isfahan, Iran

2 Dept. of Electrical and Computer Engineering, Isfahan University of Technology, Isfahan, Iran

Abstract

Anomaly detection has been in researchers’ scope of study for a long time. The wide variety of anomaly detection use cases ranges from quality control in production lines to providing security in public places. One of the most attractive topics in anomaly detection is in video surveillance systems. In this paper, we propose a method that works based on frame prediction and optical flow to improve anomaly detection in videos. The use of optical flows in normal frames helps the system to better detect the entrance of people or objects to forbidden areas by its information about the amount of movement in different regions of the frames. Based on the optical flow of normal videos and that of current video, the threshold for anomaly decision is adaptively adjusted. This could ultimately lead to a better overall performance of the anomaly detection system compared to the recent similar works. The presented method is general and can be simply incorporated to other video anomaly detection systems to improve the detection accuracy.

Keywords


  • مقدمه[1]

پژوهشگران از دیرباز دربارۀ تشخیص ناهنجاری به‌منزلۀ یک زمینه تحقیقاتی بحث کرده‌اند. کاربردهای بسیار تشخیص ناهنجاری در کنار چالش‌های فراوان این حوزه، آن را به موضوعی همچنان جذاب برای تحقیق تبدیل کرده است. ازجمله کاربردهای آن، تشخیص خرابی در خط تولید، تشخیص تصادف به کمک دوربین‌های نظارتی خیابان‌ها، تشخیص اتفاقات ناگوار و غیرمنتظره مانند درگیری در معابر و گذرگاههای عمومی و غیره‌اند. ناهنجاری به معنای وجود هر شی، اتفاق یا وضعیتی است که عادی محسوب نمی‌شود. با توجه به این تعریف، معنای ناهنجاری در مکان‌ها و زمان‌های مختلف متغیر است؛ برای مثال، دمای هوای 10 درجه سانتی‌گراد برای فصل زمستان دمایی عادی محسوب می‌شود؛ اما همین دمای هوا در فصل تابستان مقداری نامتعارف و به عبارت دیگر، ناهنجاری است. بر همین اساس، تعریف ناهنجاری در تصاویر و ویدئوها هم متفاوت است. تشخیص ناهنجاری برای انسان کاری ساده محسوب می‌شود؛ اما با توجه به بی‌تعریف بودن ناهنجاری، تشخیص آن برای ماشین امری دشوار و چالش‌برانگیز است.

امروزه روش‌های مبتنی بر یادگیری ماشین تلاش می‌کنند تا با یادگیری ویژگی‌های مربوط به رویدادها و شرایط عادی، تعریفی از هنجار به دست بیاورند و سپس با استفاده از این تعریف و مقایسه آن با نمونه‌های مختلف و با اندازه گیری میزان شباهت تعریف هنجار و نمونه ناشناس، دربارۀ هنجار یا ناهنجار بودن نمونه تصمیم‌گیری کنند. برای انجام این کار، چالش‌های مختلفی وجود دارند. نخستین چالش، نبود توازن بین نمونه‌های ناهنجار و نمونه‌های هنجار است. در هر محیط یا شرایطی، تعداد دفعات رخداد ناهنجاری بسیار کمتر از تعداد رخداد هنجار است. چالش دوم، تعداد بسیار بالا یا حتی نامتناهی‌بودن کلاس‌های ناهنجاری است. چالش سوم شباهت بسیار زیاد میان نمونه‌های ناهنجار و هنجار در بعضی موارد است. با توجه به چالش دوم، پژوهشگران معمولاً از روش‌های بدون ناظر یا با نظارت ضعیف برای آموزش استفاده می‌کنند. این روش‌ها در کنار مزایایی که به همراه دارند، ایراداتی را هم به دنبال خواهند داشت. روش بدون ناظر نیازی به داده برچسب دار شده [1] ندارد. همین موضوع هزینه مالی و زمانی تهیه داده‌های مورد نیاز را برای آموزش بدون ناظر کاهش می‌دهد. استفاده‌نکردن از داده برچسب‌دار شده معایبی نیز دارد. برخی اوقات تعریف تابع هزینه‌ای که بتواند کل سیستم را به سمت جواب مناسب همگرا کند، کاری پیچیده است. همچنین، جواب نهایی سیستم‌های بدون ناظر معمولاً از کیفیت کمتری نسبت به روش‌های با ناظر برخوردارند.

 برای آموزش یک سامانه از ویژگی‌های دست‌ساز یا ویژگی‌های استخراج‌شده به‌صورت خودکار استفاده می‌شود. با توجه به پیشرفت‌های اخیر در ریاضیات و همچنین افزایش چشمگیر و نمایی قدرت محاسباتی واحدهای پردازنده، روش‌های خودکار مانند شبکه‌های عصبی عمیق از استقبال بیشتری برخوردار بوده‌اند. این روش‌ها به‌صورت خودکار، ویژگی‌های مناسب‌تر برای حل یک مسئله را استخراج و با آنها مسئلۀ مطرح‌شده را حل می‌کنند.

در ادامه به بررسی برخی روش‌های موجود برای تشخیص ناهنجاری پرداخته می‌شود و در بخش بعد، روش پیشنهادی برای بهبود و ارتقای سیستم‌های تشخیص ناهنجاری در ویدئو معرفی می‌شود. نتایج نهایی استفاده از روش معرفی‌شده و مقایسه آن با سایر روش‌های موجود نیز در بخش نتایج عملی آورده شده‌اند. درنهایت، جمع‌بندی و نتیجه‌گیری کلی ارائه شده است.

2- مطالعات پیشین

با توجه به اینکه روش‌های بدون ناظر به دلیل عدم نیاز به داده‌های برچسب گذاری‌شده معمول‌ترند، در اینجا این روش‌ها بررسی می‌شوند؛ روش‌هایی که برای تشخیص ناهنجاری از آنها استفاده می‌شود یا براساس خوشه‌بندی کار می‌کنند یا از خطای بازسازی برای تشخیص ناهنجاری بهره می‌برند. در برخی از موارد نیز از این دو به‌صورت ترکیبی استفاده می‌شود. روش‌های مبتنی بر خوشه‌بندی سعی می‌کنند داده‌های آموزشی را در خوشه‌هایی با مراکز مجزا قرار دهند. هدف از مرحله آموزش، به دست آوردن خوشه‌هایی است که به‌خوبی از هم جدا شده‌اند. هر داده‌ای که متعلق به یکی از خوشه‌های آموخته‌شده در مرحله آموزش نباشد، داده ناهنجار در نظر گرفته می‌شود. روش ارائه‌شده در [1] از یک روش خوشه‌بندی خاصی برای یادگیری زیرمجموعه‌های عادی استفاده می‌کند که می‌تواند به‌صورت مؤثر زیردسته‌های هنجار را به‌عنوان مراکز خوشه‌ها فرا گیرد. روش مقاله [2] یک رویکرد مبتنی بر مسیر و یک رویکرد منطقه‌محور را برای دستیابی به نتایج بهتر ترکیب می‌کند. اگرچه روش معرفی‌شده در [3] یک روش مبتنی بر خطای بازسازی برای تشخیص ناهنجاری است، پژوهشگران از خوشه‌بندی برای شناسایی استفاده می‌کنند، تا هم شبکه‌های رمزگذار[2] مربوط به ظاهر و هم شبکه‌های رمزگذار مربوط به حرکت را مجبور ‌کنند فاکتورهای رایج متغیر در مجموعه داده را استخراج کنند. روشی مبتنی بر خوشه‌بندی براساس SVM تک‌کلاسه برای تشخیص مسیرهای حرکت ناهنجار معرفی شده است که می‌تواند با توجه خاصی که به مسیرهای حرکتی دارد، بدون داشتن دانش قبلی از ناهنجاری‌ها آنها را به‌درستی تشخیص دهد ]4[. می‌توان از یک خودرمزنگار سه‌بعدی برای استخراج ویژگی استفاده کرد و در ادامه بر اساس این ویژگی‌ها یک خوشه‌بندی برای فراگیری فضای داده‌های هنجار انجام داد ]5[. در مرجع [6]، پژوهشگران از یک خوشه‌بندی دومرحله‌ای استفاده کرده‌اند تا ناهنجاری‌های مربوط به حرکت وسایل نقلیه را تشخیص دهند؛ به این صورت که ابتدا مسیرهای حرکتی، پیش‌پردازش و از آنها نمونه‌برداری می‌شود و سپس از خوشه‌بندی فضایی استفاده می‌شود تا مسیرهای شبیه به هم در یک خوشه قرار گیرند.

روش‌های مبتنی بر خطای بازسازی در میان پژوهشگران بسیار محبوب‌اند. در این روش‌ها تلاش می‌شود تا ابتدا فضای داده‌های هنجار یا نمایشی از آنها به بهترین نحو ممکن یادگیری شود. در اینجا فرض بر این است که سیستم می‌تواند نمونه‌های فراگرفته‌شده را که همان هنجارها هستند، با کیفیت بالا بازسازی کند؛ اما این امر برای داده‌های ناهنجار میسر نیست؛ به همین دلیل، در این روش‌ها در صورتی که خطای بازسازی نمونه‌ای از آستانه بیشتر شود، آن نمونه به‌عنوان نمونه ناهنجار دسته‌بندی می‌شود. ازجمله ابزارهای محبوب برای یادگیری فضای داده‌های هنجار، خودرمزنگار ها[3]، خودرمزنگارهای متغیر[4]، رمزنگارهای نویز زدا[5] و نمونه‌های تنظیم‌شده و تغییر‌یافته آنها هستند.

 در برخی روش‌ها از خطای بازسازی فریم (های) جاری استفاده می‌شود و در برخی دیگر، سیستم فریم (های) بعدی را بازسازی می‌کند و خطای بین فریم (های) بعدی و بازسازی آن (ها) معیار قرار می‌گیرد. در اینجا هر دو دسته روش، یعنی بازسازی فریم‌های جاری و بازسازی فریم‌های آینده بررسی می‌شوند. سیستم معرفی‌شده در [7] از تعقیب اشیا و تشخیص ناهنجاری در کنار هم استفاده می‌کند تا تصادفات جاده‌ای را تشخیص دهد. در این تحقیق از شبکه‌های خودرمزنگار عمیق به‌صورت پشته‌شده[6] استفاده شده است تا فضای داده‌های هنجار، یعنی ترافیک معمولی و عادی جاده‌ها فراگرفته شود. سبک‌رو و همکارانش در تحقیق انجام‌شده در [8] دو تشخیص‌دهندۀ ناهنجاری معرفی کرده‌اند که یکی براساس بازسازی یک دسته فریم ویدئو کار می‌کند و دیگری از نمایش تنک داده‌های ورودی استفاده می‌کند. در هر دوی این سیستم‌ها از خودرمزنگارها استفاده شده است. در تحقیق ارائه‌شده در [9] از یک ساختار آبشاری استفاده شده که طبقه اول آن یک خودرمزنگار سه‌بعدی است و به کمک آن تشخیص ناهنجاری در دو مرحله انجام خواهد شد. طبقه اول ساختار را یک شبکه با عمق متوسط تشکیل می‌دهد و در طبقه دوم برای تشخیص بهتر، از یک شبکه با عمق بیشتر استفاده شده است. در تحقیق [10] از خودرمزنگارهای متغیر برای یافتن ناهنجاری‌ها استفاده شده که استفاده از آنها در کنار روش فراگیری لغت‌نامه باعث شده است یک نمایش تنک برای داده‌ها ایجاد شود که درنهایت به بهینگی کلی سیستم از منظر کاهش ابعاد داده منجر می‌شود. در روش معرفی‌شده در [11]، برای یافتن ناهنجاری‌ها ازطریق یادگیری لغت‌نامه در فضای ثانویه، یک خودرمزنگار متغیر معرفی شده است. بر اساس روش [12] می‌توان با استفاده از یک خودرمزنگار سه‌بعدی ویژگی‌هایی از ویدئو را استخراج و سپس با استفاده از یک فرهنگ لغت، فضای ویژگی‌های مربوط به داده‌های هنجار را مدل کرد. با استفاده از این مدل، نمونه‌های ناهنجار نیز تشخیص‌پذیرند. مرجع [13] ساختاری تماماً کانولوشنی معرفی کرده که توانایی فراگیری فضای داده‌های هنجار را داراست. ویژگی اصلی آن استفاده از یادگیری انتقالی برای فراگیری داده‌های هنجار است. در آنجا برای استخراج ویژگی‌های غنی از لایه‌های AlexNet استفاده شده است.

همان‌گونه که گفته شد روش‌های براساس پیش‌بینی فریم‌های بعدی نیز مانند روش‌های براساس بازسازی فریم جاری به دنبال نمونه‌هایی هستند که خطای بازسازی آنها از حد مشخصی بیشتر شود. میزان خطای بازسازی معمولاً با مجذور میانگین خطا یا کمیت‌های معادل آن اندازه‌گیری می‌شود ]14[. در تحقیق [15] از یک کدگشای بازساز[7] و یک کدگشای پیش‌بین[8] استفاده شده است. در کنار بهره‌مندی از مزایای کدگشاهای پیش‌بین، استفاده از کدگشای بازساز این امکان را فراهم می‌آورد که بتوان قیودی برای آموزش بهتر اعمال کرد. در روش ارائه‌شده در [16]، ابتدا اختلاف بین فریم پیش‌بینی شده و فریم اصلی به کمترین مقدار ممکن رسانده شده است و سپس فریم پیش‌بینی‌شده و فریم اصلی به فضای ثانویه برده می‌شوند تا مدل بهینه‌تری از داده‌ها ساخته شود. در مطالعه [17] شبکه‌ای چندمسیره برای پیش‌بینی فریم‌ها معرفی شده است که به ادعای نویسندگان آن، توانایی خوبی در فراگیری مفهومی اشیا و نواحی دارد.

در تحقیق ارائه‌شده در [22] از داده‌های شار نوری برای ساخت ویژگی‌هایی استفاده شده است که قابل استفاده در تشخیص ناهنجاری هستند. در آن تحقیق با استفاده از هیستوگرام دامنه و جهت شار نوری و همچنین، مفهوم انتروبی تلاش شده است تا الگوهایی فراگرفته شوند که به به تشخیص ناهنجاری کمک می‌کنند. در تحقیق [23] از یک ساختار خود کدکننده با استفاده از لایه‌های کانولوشنی و CONV-LSTM استفاده شد تا فضای داده هنجار فراگرفته شود. برای آنکه اطلاعات مربوط به سرعت و جهت اشیا موجود در پیش‌زمینه، بهتر استخراج شوند، در مرحله استخراج ویژگی از شار نوری استفاده شده است. می‌توان با استفاده از یک ماسک برای تشخیص پیش‌زمینه و همچنین، انجام نمونه‌برداری در حوزه فضای تصویر، سرعت محاسبات شار نوری را افزایش داد [24]. همچنین، با انتخاب ویژگی‌های مناسب در شار نوری و فیلترکردن این ویژگی‌ها میزان قابلیت اطمینان شار نوری در آن افزایش یافته است. در تحقیق ارائه‌شده در [25] با معرفی ویژگی بصری بافت شار نوری که میزان همگن‌بودن یک میدان شار نوری را بررسی می‌کند، نمایشی از داده‌ها ارائه شده است که می‌تواند حرکت در تصاویر را به‌منظور تشخیص ناهنجاری به‌طور مؤثری مدل کند.

با توجه به تحقیقات بررسی‌شده، روش کلی برای تشخیص ناهنجاری، فراگیری فضای حالت داده‌های عادی است و برای انجام این امر می‌توان از روش‌های مبتنی بر خوشه‌بندی یا مبتنی بر خودرمزنگارها استفاده کرد. در برخی از روش‌ها برای بهبود عملکرد سیستم، از مسیرهای حرکتی در داده‌های عادی هم استفاده می‌شود؛ اما عیب همه آنها مغفول‌ماندن مکان‌های عاری از هدف متحرک و ممنوعه است که در این مقاله بررسی شده است. در مقالات پیشین مرتبط با شار نوری، با استفاده از شار نوری یا نمونه‌های تغییریافته آن، نمایشی از داده‌ها ایجاد شود که به دلیل دارابودن ویژگی‌های حرکتی می‌تواند به‌طور مؤثر برای یادگیری فضای داده معمولی استفاده شود؛ اما در این مطالعه تلاش شده است تا با استفاده از شار نوری و ویژگی‌های استخراج‌شده از آن، دربارۀ آستانه‌ای تصمیم گرفته شود که برای تشخیص ناهنجاری استفاده می‌شود.

3- روش پیشنهادی

برای تشخیص ناهنجاری، از یک سیستم مبتنی بر پیش‌بینی فریم بعدی ویدئو استفاده می‌شود. دلیل استفاده از این روش، عملکرد بهتر آن نسبت به روش‌هایی مثل [9] و [13] است که از بازسازی فریم جاری استفاده می‌کنند. دلیل این امر آن است که در مقایسه با روش‌هایی که از بازسازی فریم جاری استفاده می‌کنند، خطای افزوده‌شده به پیش‌بینی فریم‌های ناهنجاری بیشتر از خطای اضافه‌شده به پیش‌بینی فریم‌های عادی است. برای بهبود کیفیت نتایج نهایی، در فرایند تصمیم‌گیری از یک نقشه شار نوری استفاده شده است که نواحی ممنوعه را به‌طور مؤثری مدل می‌کند.

3-1- ساختار روش پیشنهادی

معماری شبکه پیشنهادی برای تشخیص ناهنجاری‌های ویدئو در شکل (1) نشان داده شده است. با توجه به شکل، این شبکه از سه لایه CONVLSTM2D تشکیل شده که میان آنها لایه همسان ساز[9] قرار داده شده است. این ساختار در ورودی خود 9 فریم را دریافت می‌کند و در خروجی خود نیز 9 فریم ایجاد می‌کند که هرکدام فریم پیش‌بینی‌شده بعدی برای فریم متناظر خود در ورودی است. به عبارت دیگر، این شبکه 9 فریم دریافت می‌کند و برای هرکدام از آنها یک پیش‌بینی برای فریم بعدی ایجاد می‌کند. دلیل استفاده از لایه‌های CONVLSTM2D توانایی بالای آنها در فراگیری داده‌های مکانی - زمانی موجود در ویدئوها است. طراحی این لایه‌ها به‌صورتی انجام شده است تا هم توانایی لایه‌های کانولوشنی در فراگیری داده‌های دوبعدی را دارا باشند و هم از قابلیت‌های لایه‌های LSTM در فراگیری داده‌های زمانی بهره ببرند. با توجه به ماهیت ویدئو، استفاده از این لایه‌ها منطقی به نظر می‌رسد. برای آموزش این شبکه از روش بدون ناظر به این صورت استفاده می‌شود که در ورودی 9 فریم از ویدئوهای هنجار به‌عنوان ورودی داده می‌شود و در خروجی از شبکه انتظار می‌رود 9 پیش‌بینی برای ورودی‌ها ایجاد کند. با توجه به دردسترس‌بودن فریم‌های بعدی، می‌توان فریم‌های بعدی را خروجی مورد انتظار در نظر گرفت. از بهینه‌ساز ADAM برای کمینه‌کردن خطای بازسازی استفاده می‌شود و میزان خطای بازسازی با میانگین مجذور خطا بین فریم‌های بعدی واقعی و پیش‌بینی انجام‌شده محاسبه می‌شود. در صورتی که فرایند آموزش به‌درستی انجام شود، انتظار می‌رود شبکه به‌خوبی فریم‌های هنجار را بازسازی کند؛ اما از بازسازی فریم‌های ناهنجاری با کیفیت خوب ناتوان باشد. با توجه به مطالب گفته‌شده، در صورتی که خطای بازسازی در فاز تست از آستانۀ از پیش تعیین شده فراتر برود، آن فریم ناهنجار تشخیص داده می‌شود.

 

  • نقشه شار نوری

در بخشی از ناهنجاری‌های موجود در ویدئوها، حضور افراد، حیوانات یا وسایل نقلیه در برخی نواحی ممنوع است؛ برای مثال، حضور افراد روی چمن یا ورود افراد به نواحی ممنوعه، ناهنجاری تلقی می‌شود. برای تشخیص این نوع ناهنجاری‌ها، استفاده از نقشه شار نوری پیشنهاد می‌شود. نقشه شار نوری نقشه‌ای است که از روی میزان حرکت موجود در نواحی مختلف تصویر ساخته می‌شود. ایده استفاده از نقشه شار نوری این است که در صورتی که در یک ناحیه از تصویر که در فاز آموزش حرکتی دیده نشده است، حرکتی مشاهده شود، احتمالاً یک ناهنجاری در تصویر وجود دارد و بنابراین، با کاهش آستانه، شرایط برای تشخیص داده شدن فریم به‌عنوان ناهنجاری تسهیل می‌شود. نکتۀ شایان توجه اینکه نمی‌توان تنها به صرف وجود حرکت در نواحی ممنوعه، فریم را ناهنجاری اعلام کرد؛ دلیل این امر وجود نویز در شار نوری فریم‌ها است؛ اما با تنظیم آستانه می‌توان آن را به‌درستی استفاده کرد. مراحل مختلف روش پیشنهادی به‌صورت زیر (الف تا ه) است که به غیر از بند (ه)، بقیه روی داده‌های هنجار اعمال می‌شود.

الف) محاسبه شار نوری تمام فریم‌های هنجار داده‌های آموزشی:

برای محاسبه شار نوری لازم است ابتدا تصاویر با یک فیلتر گوسی مقداری مات شوند تا نویز در شار نوری کاهش یابد. برای این کار از یک فیلتر گوسی با ابعاد 3×3 استفاده می‌شود.

ب) محاسبه نقشه حرکت فریم‌ها:

بعد از اینکه شار نوری برای همه داده‌ها محاسبه شد، یک نقشه حرکت ازطریق میانگین‌گیری روی تمامی شارهای نوری فریم‌ها ساخته می‌شود. تصویر حاصل‌شده، تصویری است که در آن شدت پیکسل‌ها در جاهایی که حرکت به‌صورت میانگین بیشتر بوده بالاتر است و هرچه جایی از تصویر تاریک‌تر باشد، در آن ناحیه حرکت کمتری وجود داشته است. برای ساخت نقشه حرکت فریم‌ها ابتدا تصویر حاصل در مرحله قبل بین صفر و یک همسان‌سازی می‌شود. سه نمونه از این تصاویر همسان‌شده در شکل (2) آورده شده‌اند. مجدداً برای کاهش نویز، عمل مورفولوژیک سایش[10] با پنجره مربعی 5×5 به آن اعمال می‌شود. نتیجه نهایی پس از پردازش با عمل سایش و میانگین‌گیری روی فریم‌های آموزشی در شکل (3) نشان داده شده است.

شکل (1): ساختار شبکۀ پیش‌بینی‌کنندۀ فریم

شکل (2): سه نمونه از تصاویر شار نوری همسان‌سازی‌شده بین صفر و یک (ردیف بالا) و فریم مربوطه به آنها (ردیف پایین)

شکل (3): نقشه حرکت فریم‌ها بعد از پردازش با عمل مورفولوژیک سایش

 

ج) ساخت نقشه شار نوری با استفاده از نقشه حرکت:

در این مرحله، ابتدا نتیجه حاصل از تصویری تماماً یک و هم‌ابعاد با تصویر اصلی کم می‌شود، سپس مجدداً با عمل سایش، پردازش و در تصویر حاصل پیکسل‌های کمتر از 0.5 طبق رابطه (1) صفر می‌شود؛ چون نیاز است این تصویر نواحی با میزان حرکت کمتر از متوسط را برای ما آشکار کند.

(1)

 

 

 

که در آن M و  Nبه‌ترتیب عرض و ارتفاع تصویرند و Motion map خروجی مرحله (ب) است. نقشه شار نوری حاصل در شکل (4) نشان داده شده است.

 

شکل (4): نقشه شار نوری پایگاه داده Avenue

 

د) ساخت نقشه نوری شبکه‌بندی‌شده:

 برای ساخت نقشه شار نوری شبکه‌بندی‌شده کافی است از رابطه (2) استفاده شود.

(2)

 

 

که در آن OFM و GOFM به‌ترتیب نقشه شار نوری و حالت شبکه‌بندی‌شدۀ آن است. هدف این است که تصویر ایجادشده به 12 بلوک مساوی تقسیم شود و درنهایت به جای یک تصویر، یک ماتریس 4×3 به وجود آید که هر عنصر آن برابر با میانگین شار نوری در بلوک متناظر آن در نقشه نوری است.

برای انتخاب اندازه بلوک‌بندی (4×3)، با توجه به شکل کلی تصاویر که مستطیل شکل است، شبکه‌بندی فریم‌ها به بلوک‌های مستطیلی M×N منطقی است. برای انتخاب دقیق مقادیر M و N حالات 5×4 و 3×2 نیز تست شدند. با بررسی بصری نتایج حاصل‌شده از این سه نوع دسته‌بندی نتیجه‌گیری شد که در حالت 3×2 به دلیل بیش از اندازه بزرگ بودن بلوک‌ها، دقت کافی به دست نمی‌آید. در حالت 5×4 دقت کافی است؛ اما مزیت خاصی نسبت به حالت 4×3 کسب نمی‌شود و از منظر کاهش بار محاسباتی، حالت 4×3 بهینه‌تر است.

ه) استفاده از نقشه شار نوری شبکه‌بندی‌شده در تشخیص ناهنجاری:

با انجام مراحل قبلی نقشه شار نوری شبکه‌بندی‌شده محاسبه شده است. حال در صورتی که در تعدادی از بلوک‌های تصویر بررسی‌شده، مقدار شار نوری شبکه‌بندی‌شده محاسبه‌شده برای یک فریم بیشتر از شار نوری شبکه‌بندی‌شده برای داده‌های هنجار بود، آستانه خطای بازسازی کاهش داده شود تا از این طریق احتمال ناهنجاری فریم افزایش یابد.

برای استخراج میزان کاهش آستانه، با استفاده از حلقه For حالات مختلفی بررسی شدند و سیستم با مقادیر مختلف کاهش آستانه تست شد. برای این کار، تمام مقادیر ممکن از کاهش 3 درصدی تا کاهش 50 درصدی با دقت 1 درصد تست شدند و بهترین نتایج با دقت یکسان برای بازه 14 درصد تا 17 درصد حاصل شد که برای مقاله، مقدار 15 درصد استفاده شد و با آزمایشی مشابه تعداد بلوک، حداقل دو به دست آمد.

به‌طور خلاصه، فریم‌های هنجار در هر قسمت از تصویر، شار نوری متوسط مشخصی دارند. اگر فریمی دارای نقشه شار نوری متفاوت از متوسط هنجارها داشت (در دو بلوک یا بیشتر)، آن فریم با سهولت بیشتری (کاهش سطح آستانه) ناهنجار اعلام می‌شود. درخور ذکر است میزان اثرگذاری این روش به میزان وجود ناهنجاری از جنس حضور شیء یا شخص در مناطق ممنوعه بستگی دارد. شبه‌کد الگوریتم در شکل (5) آورده شده است.

 

شکل (5): شبه‌کد الگوریتم پیشنهادی

4- نتایج عملی

برای پیاده‌سازی شبکۀ پیشنهادی و همچنین، ایجاد نقشه شار نوری شبکه‌بندی‌شده از پایتون نسخه 3.8 و کتابخانه‌های keras و opencv استفاده شده است. برای انجام فرایند آموزش از کامپیوتری مجهز به دو کارت گرافیکNvidia 3060 ti ، 64GB حافظه رم و یک CPU نسل 10 هفت هسته‌ای استفاده شده است.

برای بررسی تشخیص ناهنجاری در تصاویر ویدئویی دو پایگاه داده بسیار محبوب Avenue [21] و UCSD [26] در بین پژوهشگران وجود دارد. پایگاه داده Avenue شامل تصاویر یک پیاده‌رو و رفت‌وآمد عابران پیاده به‌عنوان داده معمولی است. برای داده تست از تعدادی ویدئو استفاده می‌شود که در آنها عابران اعمالی را انجام می‌دهند که در داده‌های معمولی دیده نشده است. این اعمال شامل دویدن در پیاده‌رو، عبور از یک ناحیه‌ای که عابران پیاده از آن نواحی در داده‌های معمولی عبور نکرده‌اند، پرتاب اشیا به سمت بالا و غیره می‌شود. تصاویر پایگاه داده UCSD شامل تصاویر نواحی دو پیاده‌رو از دو زاویه مختلف با عناوین UCSD Ped1  و UCSD Ped2 است. ناهنجاری‌های موجود در این پایگاه داده شامل عبور دوچرخه، اسکیت سوار، ویلچیر و خودرو از پیاده‌رو است. با توجه به اینکه ذات ناهنجاری‌های موجود در این پایگاه داده از نوع ورود به نواحی ممنوعه نیست، استفاده از این پایگاه داده برای بررسی روش پیشنهادی چندان مؤثر به نظر نمی‌رسد و به همین دلیل از این پایگاه داده استفاده نشد. در این پایگاه، اگر به‌طور مثال، دوچرخه در قسمتی از پیاده‌رو مجاز به حضور بود و در قسمتی دیگر نبود و وارد آن قسمت می‌شد، می‌توان برای تست الگوریتم خود از آن استفاده کرد.

بنابراین، شبکه روی داده‌های آموزشی پایگاه دادهAvenue  به تعداد 10 اپوک آموزش داده شده و از داده‌های تست همان پایگاه داده برای سنجش کیفیت عملکرد کلی سیستم استفاده شده است. معیار سنجش عملکرد روش‌های تشخیص ناهنجاری به دلیل نابرابری تعداد نمونه‌های هنجار و ناهنجار معمولاً سطح زیر منحنی[xi] (AUC)  نرخ نمونه مثبت صحیح[xii] بر حسب نرخ نمونه مثبت اشتباه[xiii] است. برای رسم این نمودار لازم است مقادیر یادشده برای آستانه‌های مختلف، محاسبه و نسبت به هم رسم شوند. معیار AUC مساحت زیر این نمودار است. برای سیستم ایدئال، این مقدار یک خواهد بود و هرچه این مقدار به صفر نزدیک شود، سیستم عملکرد ضعیف‌تری خواهد داشت.

روش پیشنهادی با روش‌های ارائه‌شده در [18]، [19] و [20] مقایسه شده است. در روش [18]، از لایه‌های CONVLSTM2D برای ساخت یک خودرمزنگار استفاده شده است تا با بهره‌گیری از آنها ویژگی‌های مکانی - زمانی به‌خوبی فرا گرفته شود. در تحقیق [19] از خودرمزنگار نویززدا استفاده شده است که نسبت به خودرمزنگار عادی عملکرد بهتری دارد. در روش [20] از یک خودرمزنگار ساخته‌شده با لایه‌های کانولوشن دوبعدی استفاده شده است. این روش‌ها و روش پیشنهادی، آزمایش و نتایج در جدول (1) آورده شدند.

 

جدول (1): مقایسۀ عملکرد روش پیشنهادی با روش‌های موجود

روش

 مساحت زیر منحنی (AUC)

[18]ارائه شده در

77

[19] ارائه شده در

81.7

[20] ارائه شده در

74.5

روش پیشنهادی

81.7

همان‌گونه که پیداست روش ما توانست نتایج بهتری در مقایسه با غالب روش‌ها به دست آورد و درواقع در رتبه اول مشترک با روش [19] قرار دارد؛ اما ضعف روش [19] این است که خطای تمامی نواحی به‌صورت یکسان نگاه می‌شوند و برخلاف روش ما برای بررسی نواحی ممنوعه به‌طور دقیق راهکاری ندارد. روی این موضوع، باوجود کاربردی و مهم بودن، در پایگاههای داده موجود تأکید نشده است. به عبارت دیگر، اگر پایگاه داده دیگری با پوشش بیشتر نواحی ممنوعه وجود داشت، روش پیشنهادی ما بهتر بود.

نکته مهم‌تر اینکه، روش ارائه‌شدۀ ما می‌تواند به رویکرد و شبکه مقاله [19] یا سایر مقالات، افزوده شود و به بهبود نتایج کمک کند. ساختار پیشنهادی، بدون ایجاد تغییر در معماری شبکه‌های عصبی و صرفاً با بررسی اطلاعات مربوط به شار نوری که از فریم‌ها به دست می‌آید با تنظیم آستانه تصمیم‌گیری به بهبود تشخیص ناهنجاری‌ها کمک می‌کند. برای تست این روش روی شبکه‌های دیگر نیازی به تغییر ساختار و ایجاد تغییرات اساسی در آنها نیست و صرفاً کافی است آستانه روش‌های دیگر با آستانه پیشنهادی توسط این سیستم جایگزین شود؛ اما برای انجام مقایسۀ دقیق و منصفانه با دیگر کارها، لازم است شبکه آموزش داده شده با وزن‌های دقیق دردسترس باشد. با توجه به اینکه پژوهشگران، پارامترهای آموزش شبکه‌ها را در بسیاری از موارد ازجمله تعداد اپوک، نوع بهینه‌ساز، وزن‌های اولیه استفاده‌شده در شبکه و غیره گزارش نداده‌اند، امکان پیاده‌سازی دقیق شبکه‌های پیشنهادی ممکن نیست و این امر امکان مقایسه صحیح با سایر کارها را ناممکن می‌سازد.

 

شکل (6): نمونه‌ای از فریم ناهنجاری تشخیص داده شده به‌وسیلۀ نقشه شار نوری

دلیل اثرگذاری شار نوری، کمک در تشخیص ناهنجاری‌هایی مانند شکل (6) است. در این فریم، شخص عابر وارد فضایی شده است که در داده‌های آموزشی شخصی از آن عبور نمی‌کند. مزیت روش ما در داده‌هایی دیده می‌شود که ناهنجاری به‌صورت ورود فرد یا شیء به منطقه‌ای ممنوعه است. روش‌های دیگر به دلیل آنکه به این مهم توجه نداشته‌اند، نمونه را نمونۀ هنجار در نظر خواهند گرفت؛ حال آنکه در روش ما به دلیل کاهش آستانه ناشی از OFM کم، تشخیص ناهنجاری به‌درستی صورت می‌گیرد.

5- نتیجه‌گیری

در این تحقیق، با استفاده از شبکۀ پیش‌بین فریم بعدی ویدئو و یک نقشه شار نوری شبکه‌بندی‌شده، روشی برای بهبود نتایج تشخیص ناهنجاری ارائه و ارزیابی شده است. نتایج عملی حاصل‌شده از تست شبکه روی پایگاه داده Avenue حاکی از آن است که شبکه، نحوۀ بازسازی داده‌های هنجار را به‌درستی آموزش دیده است و داده‌های ناهنجار را با مقایسۀ خطای بازسازی با یک آستانه تشخیص می‌دهد. میزان آستانه با توجه به محتوای نقشه شار نوری شبکه‌بندی‌شده تنظیم می‌شود. محتوای نقشه شار نوری برای بررسی ورود به نواحی ممنوعه در فریم‌ها استفاده می‌شود. مدل‌سازی نواحی ممنوعه در این کاربرد برای نخستین‌بار مطرح و بررسی شدند. دقت روش نسبت به غالب روش‌های مقایسه‌شده بیشتر است؛ اما با یک روش مساوی است که علت آن محدودیت پایگاههای داده موجود است. علاوه بر این، رویکرد معرفی‌شده برای مدل‌کردن نواحی ممنوعه کلی است و می‌تواند به‌خوبی به سایر سیستم‌های تشخیص ناهنجاری ویدئوئی اضافه شود.

 

[1] تاریخ ارسال مقاله: 01/04/1401

تاریخ پذیرش مقاله: 02/05/1401

نام نویسندۀ مسئول: محمد کاظمی

نشانی نویسندۀ مسئول: ایران – اصفهان –دانشگاه اصفهان – دانشکده فنی و مهندسی، گروه مهندسی برق

 

[1] Labeled data

[2] Encoder

[3] Autoencoder

[4] Variational Autoencoder

[5] Denoising Autoencoder

[6] Stacked deep Autoencoder

[7] Reconstructing decoder

[8] Predictive decoder

[9] Batch normalization

[10] Erosion

[xi] Area Under Curve

[xii] True Positive Rate

[xiii] False Positive Rate

Wang, Y. Zou, and Z. Zhang, “Cluster Attention Contrast for Video Anomaly Detection”. Proceedings of the 28th ACM International Conference on Multimedia, 2020.
Hao, A. Achim, and D. Bull, "Unsupervised video anomaly detection using feature clustering", IET signal processing, Vol. 6, No. 5, pp. 521-533, 2012
Chang, Z. Tu, W. Xie, J. Yuan, “Clustering driven deep autoencoder for video anomaly detection”, In European Conference on Computer Vision, pp. 329-345, 2020
Piciarelli, C, Micheloni, and G.L. Foresti, “Trajectory-based anomalous event detection”, IEEE Transactions on Circuits and Systems for video Technology, Vol. 18, No. 11, pp. 1544-1554, 2008
Asad, J. Yang, E. Tu, L. Chen, and X. He, “Anomaly3D: Video anomaly detection based on 3D-normality clusters”, Journal of Visual Communication and Image Representation, Vol. 75, 2021
Fu, W. Hu, T. Tan, “Similarity based vehicle trajectory clustering and anomaly detection”, In IEEE International Conference on Image Processing, pp. II-602, 2005
Singh, C. K. Mohan, “Deep spatio-temporal representation for detection of road accidents using stacked autoencoder”, IEEE Transactions on Intelligent Transportation Systems, Vol 20, No. 3, pp. 879-887, 2018
Sabokrou, M. Fathy, M. Hoseini, “Video anomaly detection and localisation based on the sparsity and reconstruction error of auto-encoder”, Electronics Letters, Vol. 52, No. 13, pp. 1122-1124, 2016
Sabokrou, M. Fayyaz, M. Fathy, and R. Klette, “Deep-cascade: Cascading 3d deep neural networks for fast anomaly detection and localization in crowded scenes”, IEEE Transactions on Image Processing, Vol. 26, No. 4, pp. 1992-2004, 2017.
Wang, M. Qiao, Z. Lin, C. Li, H. Snoussi, Z. Liu, and C. Choi, “Generative neural networks for anomaly detection in crowded scenes”, IEEE Transactions on Information Forensics and Security, Vol. 14, No. 5, pp. 1390-1399, 2018
Sun, X. Wang, N. Xiong and J. Shao, “Learning sparse representation with variational auto-encoder for anomaly detection”, IEEE Access, Vol. 6, pp. 33353-33361, 2018.
Chu, H. Xue, C. Yao, D. Cai, “Sparse coding guided spatiotemporal feature learning for abnormal event detection in large videos”, IEEE Transactions on Multimedia, Vol. 21, No. 1, pp. 246-255, 2018.
Sabokrou, M. Fayyaz, M. Fathy, Z. Moayed, and R. Klette, “Deep-anomaly: Fully convolutional neural network for fast anomaly detection in crowded scenes”, Computer Vision and Image Understanding, Vol. pp. 172, 88-97, 2018
Ye, X. Peng, W. Gan, W. Wu, and Y. Qiao, “Anopcn: Video anomaly detection via deep predictive coding network”, In Proceedings of the 27th ACM International Conference on Multimedia, pp. 1805-1813, 2019.
Lai, R. Liu, and Y. Han, “Video anomaly detection via predictive autoencoder with gradient-based attention”, IEEE International Conference on Multimedia and Expo, 2020
Zhang, X. Nie, R. He, M. Chen, and Y. Yin, “Normality learning in multispace for video anomaly detection," IEEE Transactions on Circuits and Systems for Video Technology, Vol. 31, No. 9, pp. 3694-3706, 2020
Wang, Z. Che, B. Jiang, N. Xiao, K. Yang, J. Tang, J. Ye, J. Wang, Q. Qi, “Robust unsupervised video anomaly detection by multipath frame prediction”, IEEE Transactions on Neural Networks and Learning Systems, Vol. 23, No. 6, pp. 2301-2312, 2022.
Luo, W. Liu, and S. Gao, “Remembering history with convolutional lstm for anomaly detection”, In 2017 IEEE International Conference on Multimedia and Expo, pp. 439-444, 2017
Vincent, H. Larochelle, Y. Bengio, and P.A. Manzagol, “Extracting and composing robust features with denoising autoencoders”, In Proceedings of the 25th international conference on Machine learning, pp. 1096-1103, 2008.
Hasan, J. Choi, J. Neumann, A. K. Roy-Chowdhury, and L. S. Davis, “Learning temporal regularity in video sequences”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 733-742, 2016.
http://www.cse.cuhk.edu.hk/leojia/projects/detectabnormal/dataset.html
V.H.M. Colque, C. Caetano, M. T. L. de Andrade and W. R. Schwartz, “Histograms of optical flow orientation and magnitude and entropy to detect anomalous events in videos”, IEEE Transactions on Circuits and Systems for Video Technology, Vol. 27, No. 3, pp. 673-682, 2016.
Duman, and Q. A. Erdem, “Anomaly detection in videos using optical flow and convolutional autoencoder”, IEEE Access, Vol. 7, pp.183914-183923, 2019.
Tan, Y. Zhai, Y. Liu, and M. Zhang, “March. Fast anomaly detection in traffic surveillance video based on robust sparse optical flow”, In IEEE international conference on acoustics, speech and signal processing (ICASSP), pp. 1976-1980, 2016
Ryan, S. Denman, C. Fookes, and S. Sridharan, “August textures of optical flow for real-time anomaly detection in crowds. In IEEE international conference on advanced video and signal based surveillance (AVSS), pp. 230-235, 2011.
http://www.svcl.ucsd.edu/projects/anomaly/dataset.html.