Abstract
В данной статье рассматривается применение различных нейросетевых моделей для решения задачи распознавания эмоций по двигательной активности его тела на кадрах видеопотока без сложной предварительной обработки этих кадров. В работе рассматриваются трехмерные сверточные нейронные сети: Inception 3D (I3D), Residual3D (R3D), а также сверточно-рекуррентные нейросетевые архитектуры, использующие сверточную нейронную сеть архитектуры ResNet и рекуррентные нейросети архитектур LSTM и GRU (ResNet+LSTM, ResNet+GRU), которые не требуют предварительной обработки изображений или видеопотока и при этом потенциально позволяют достичь высокой точности распознавания эмоций. На основе рассмотренных архитектур предложен метод распознавания эмоций человека по двигательной активности тела в видеопотоке. Обсуждаются архитектурные особенности используемых моделей, способы обработки моделями кадров видеопотока, а также результаты распознавания эмоций по следующим метрикам качества: доля верно распознанных экземпляров (accuracy), точность (precision), полнота (recall). Результаты апробации предложенных в работе нейросетевых моделей I3D, R3D, ResNet+LSTM, ResNet+GRU на наборе данных FABO показали высокое качество распознавания эмоций по двигательной активности тела человека. Так, модель R3D показала лучшую долю, верно, распознанных экземпляров, равную 91%. Другие предложенные модели: I3D, ResNet+LSTM, ResNet+GRUпоказали 88%, 80% и 80% точность распознавания соответственно. Таким образом, согласно полученным результатам экспериментальной оценки предложенных нейросетевых моделей, наиболее предпочтительными для использования при решении задачи распознавания эмоционального состояния человека по двигательной активности с точки зрения совокупности показателей точности классификации эмоций являются трехмерные сверточные модели I3Dи R3D. При этом, предложенные модели, в отличие от большинства существующих решений позволяют реализовывать распознавание эмоций на основе анализа RGB кадров видеопотока без выполнения их предварительной ресурсозатратной обработки, а также с высокой точностью выполнять распознавание эмоций в реальном масштабе времени.
This paper considers application of various neural network models for solution of the problem, which consists in emotion recognition through motor activity of a human body in the frames of video stream without complex preprocessing of these frames. The paper considers some convolutional neural networks: Inception 3D (I3D), Residual 3D (R3D), as well convolutional-recurrent neural network architectures LSTM and GRU (ResNet+LSTM, ResNet+GRU), which do not require image or video stream preprocessing, thereby potentially providing for high accuracy in emotion recognition. On the basis of the architectures considered, a method of human emotion recognition through analysis of body motor activity in video stream is proposed. Architectural specifics of the proposed models are discussed, as well the approaches to processing of frames in the stream within these models and emotion recognition results according to the following quality metrics: the share of correctly recognized instances (accuracy), precision, recall. The results of approbation with the neural network models I3D, R3D, ResNet+LSTM, ResNet+GRU, proposed in the paper, based on the FABO dataset showed high fidelity of emotion recognition through motor activity of human body. So, the model R3D performed better, its accuracy amounted to 91%. Other proposed models: I3D, ResNet+LSTM, ResNet+GRU showed 88%, 80% and 80% recognition accuracy, respectively. Hence, according to the obtained results of the experimental evaluation of proposed neural network models, the most promising options for solution of the problem, which consists in emotion recognition through motor activity of a human body in the frames of video stream in terms of overall accuracy/precision/recall metrics, are the three-dimensional convolutional models I3D and R3D. With that, the proposed models, contrary to most of the existing solutions, allow to implement emotion recognition based on the analysis of the RGB frames in video stream without prior resource-intensive processing of them, as well enable high-fidelity emotion recognition in real-time mode.
Publisher
Voronezh Institute of High Technologies
Reference44 articles.
1. Ватаманюк И.В., Яковлев Р.Н. Алгоритмическая модель распределенной системы корпоративного информирования в рамках киберфизической системы организации. Моделирование, оптимизация и информационные технологии. 2019;7(4). Доступно по: https://moit.vivt.ru/wp-content/uploads/2019/11/VatamanukSoavtori_4_19_1.pdf. DOI: 10.26102/2310-6018/2019.27.4.026 (дата обращения: 20.10.2020).
2. Letenkov M., Levonevskiy D. Fast Face Features Extraction Based on Deep Neural Networks for Mobile Robotic Platforms. International Conference on Interactive Collaborative Robotics. Springer, Cham. 2020:200-211. DOI: 10.1007/978-3-030-60337-3_20
3. Ватаманюк И.В., Яковлев Р.Н. Обобщенные теоретические модели киберфизических систем. Известия Юго-Западного государственного университета. 2019;23(6):161-175. Доступно по: https://science.swsu.ru/jour/article/view/666/489. DOI: 10.21869/2223-1560-2019-23-6-161-175 (дата обращения: 20.10.2020).
4. Frijda N.H. Emotions and action. Feelings and emotions: The Amsterdam symposium. 2004:158-173.
5. He G., Liu X., Fan F., You J. Image2Audio: Facilitating Semi-supervised Audio Emotion Recognition with Facial Expression Image. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020:912-913.