Method of human emotion recognition through analysis of body motor activity in video stream using neural networks

Author:

Уздяев М.Ю.ORCID,Дударенко Д.М.ORCID,Миронов В.Н.

Abstract

В данной статье рассматривается применение различных нейросетевых моделей для решения задачи распознавания эмоций по двигательной активности его тела на кадрах видеопотока без сложной предварительной обработки этих кадров. В работе рассматриваются трехмерные сверточные нейронные сети: Inception 3D (I3D), Residual3D (R3D), а также сверточно-рекуррентные нейросетевые архитектуры, использующие сверточную нейронную сеть архитектуры ResNet и рекуррентные нейросети архитектур LSTM и GRU (ResNet+LSTM, ResNet+GRU), которые не требуют предварительной обработки изображений или видеопотока и при этом потенциально позволяют достичь высокой точности распознавания эмоций. На основе рассмотренных архитектур предложен метод распознавания эмоций человека по двигательной активности тела в видеопотоке. Обсуждаются архитектурные особенности используемых моделей, способы обработки моделями кадров видеопотока, а также результаты распознавания эмоций по следующим метрикам качества: доля верно распознанных экземпляров (accuracy), точность (precision), полнота (recall). Результаты апробации предложенных в работе нейросетевых моделей I3D, R3D, ResNet+LSTM, ResNet+GRU на наборе данных FABO показали высокое качество распознавания эмоций по двигательной активности тела человека. Так, модель R3D показала лучшую долю, верно, распознанных экземпляров, равную 91%. Другие предложенные модели: I3D, ResNet+LSTM, ResNet+GRUпоказали 88%, 80% и 80% точность распознавания соответственно. Таким образом, согласно полученным результатам экспериментальной оценки предложенных нейросетевых моделей, наиболее предпочтительными для использования при решении задачи распознавания эмоционального состояния человека по двигательной активности с точки зрения совокупности показателей точности классификации эмоций являются трехмерные сверточные модели I3Dи R3D. При этом, предложенные модели, в отличие от большинства существующих решений позволяют реализовывать распознавание эмоций на основе анализа RGB кадров видеопотока без выполнения их предварительной ресурсозатратной обработки, а также с высокой точностью выполнять распознавание эмоций в реальном масштабе времени. This paper considers application of various neural network models for solution of the problem, which consists in emotion recognition through motor activity of a human body in the frames of video stream without complex preprocessing of these frames. The paper considers some convolutional neural networks: Inception 3D (I3D), Residual 3D (R3D), as well convolutional-recurrent neural network architectures LSTM and GRU (ResNet+LSTM, ResNet+GRU), which do not require image or video stream preprocessing, thereby potentially providing for high accuracy in emotion recognition. On the basis of the architectures considered, a method of human emotion recognition through analysis of body motor activity in video stream is proposed. Architectural specifics of the proposed models are discussed, as well the approaches to processing of frames in the stream within these models and emotion recognition results according to the following quality metrics: the share of correctly recognized instances (accuracy), precision, recall. The results of approbation with the neural network models I3D, R3D, ResNet+LSTM, ResNet+GRU, proposed in the paper, based on the FABO dataset showed high fidelity of emotion recognition through motor activity of human body. So, the model R3D performed better, its accuracy amounted to 91%. Other proposed models: I3D, ResNet+LSTM, ResNet+GRU showed 88%, 80% and 80% recognition accuracy, respectively. Hence, according to the obtained results of the experimental evaluation of proposed neural network models, the most promising options for solution of the problem, which consists in emotion recognition through motor activity of a human body in the frames of video stream in terms of overall accuracy/precision/recall metrics, are the three-dimensional convolutional models I3D and R3D. With that, the proposed models, contrary to most of the existing solutions, allow to implement emotion recognition based on the analysis of the RGB frames in video stream without prior resource-intensive processing of them, as well enable high-fidelity emotion recognition in real-time mode.

Publisher

Voronezh Institute of High Technologies

Reference44 articles.

1. Ватаманюк И.В., Яковлев Р.Н. Алгоритмическая модель распределенной системы корпоративного информирования в рамках киберфизической системы организации. Моделирование, оптимизация и информационные технологии. 2019;7(4). Доступно по: https://moit.vivt.ru/wp-content/uploads/2019/11/VatamanukSoavtori_4_19_1.pdf. DOI: 10.26102/2310-6018/2019.27.4.026 (дата обращения: 20.10.2020).

2. Letenkov M., Levonevskiy D. Fast Face Features Extraction Based on Deep Neural Networks for Mobile Robotic Platforms. International Conference on Interactive Collaborative Robotics. Springer, Cham. 2020:200-211. DOI: 10.1007/978-3-030-60337-3_20

3. Ватаманюк И.В., Яковлев Р.Н. Обобщенные теоретические модели киберфизических систем. Известия Юго-Западного государственного университета. 2019;23(6):161-175. Доступно по: https://science.swsu.ru/jour/article/view/666/489. DOI: 10.21869/2223-1560-2019-23-6-161-175 (дата обращения: 20.10.2020).

4. Frijda N.H. Emotions and action. Feelings and emotions: The Amsterdam symposium. 2004:158-173.

5. He G., Liu X., Fan F., You J. Image2Audio: Facilitating Semi-supervised Audio Emotion Recognition with Facial Expression Image. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020:912-913.

同舟云学术

1.学者识别学者识别

2.学术分析学术分析

3.人才评估人才评估

"同舟云学术"是以全球学者为主线,采集、加工和组织学术论文而形成的新型学术文献查询和分析系统,可以对全球学者进行文献检索和人才价值评估。用户可以通过关注某些学科领域的顶尖人物而持续追踪该领域的学科进展和研究前沿。经过近期的数据扩容,当前同舟云学术共收录了国内外主流学术期刊6万余种,收集的期刊论文及会议论文总量共计约1.5亿篇,并以每天添加12000余篇中外论文的速度递增。我们也可以为用户提供个性化、定制化的学者数据。欢迎来电咨询!咨询电话:010-8811{复制后删除}0370

www.globalauthorid.com

TOP

Copyright © 2019-2024 北京同舟云网络信息技术有限公司
京公网安备11010802033243号  京ICP备18003416号-3