ПРИКАСПИЙСКИЙ ЖУРНАЛ

УПРАВЛЕНИЕ И ВЫСОКИЕ ТЕХНОЛОГИИ

АНАЛИЗ МЕТОДОВ КЛАССИФИКАЦИИ ДЕЙСТВИЙ ЧЕЛОВЕКА НА ВИДЕОИЗОБРАЖЕНИИ

Марьенков Александр Николаевич, Приходько Александр Александрович АНАЛИЗ МЕТОДОВ КЛАССИФИКАЦИИ ДЕЙСТВИЙ ЧЕЛОВЕКА НА ВИДЕОИЗОБРАЖЕНИИ // Прикаспийский журнал: управление и высокие технологии. — 2021. — №1. — Стр. 46-53.

Марьенков Александр Николаевич - Астраханский государственный университет, 414056, Российская Федерация, г. Астрахань, ул. Татищева, 20а

Приходько Александр Александрович - Астраханский государственный университет, 414056, Российская Федерация, г. Астрахань, ул. Татищева, 20а

В работе обоснованы актуальность и практическая значимость разработки новых методов анализа видеоизображения с целью классификации действий человека для дальнейшего выявления потенциально опасных инцидентов на объекте информатизации. Рассмотрены классификаторы на основе модели нейронной сети 3D ResNet, а также подходы, использующие векторную модель тела с применением библиотеки OpenPose. Первый эксперимент проведен с использованием модели нейронной сети 3D ResNet. Для обучения был использован датасет от Kinetic, включающий порядка 400 действий, среди которых присутствовали движения из единоборств. В тестовом наборе были использованы примеры из хоккейных драк и боевых приемов из фильмов. Следующий эксперимент заключался в классификации действия на базе анализа векторной модели тела человека. Kinect предоставляет данные о движении в виде иерархии основных узлов скелета человека, где вращение одних суставов относительно других представлено в виде кватернионов. Итоговое обучение модели происходило с применением датасета RGBU-D с 432 аннотированными действиями. В заключительном эксперименте для представления формализованного движения был выбран формат BVH. Переобучение модели проводилось на RGBU-D датасете, в связи с чем описание всех кадров пришлось изменить с 20 ключевых точек стандарта OpenPose до 17 из стандарта BVH, которые использовались в последующей работе с моделью. За основу конечного модуля по классификации действий, имеющихся на экране, была взята структура нейронной сети с LSTM- слоем с изменением входных данных - вместо набора фреймов из видео стал подаваться набор векторов тел людей в кадре. Обучение данной нейронной сети было проведено с использованием датасета в 2000 видеофайлов (1000 опасных ситуаций [в основном драки] и 1000 обычных действий в жизнедеятельности человека, не представляющие угрозы). Были проанализированы полученные результаты, сделаны выводы о применимости рассмотренных подходов для задачи распознавания действия человека на видеоизображении.

Ключевые слова: распознавание, глубокое обучение, нейронные сети, распознавание и классификация действий человека, выявление инцидентов, анализ видеоизображения

Меню