Author:
Devillers Laurence,Deschamps-Berger Théo,Lamel Lori
Abstract
Cette contribution présente une étude sur la détection d’émotions et de mélanges d’émotions dans un corpus collecté dans un centre d’appels d’urgence à Paris (CEMO). Notre corpus, enregistré ‹in the wild›, est riche en diversité vocale (âge, accent, nombre de locuteurs) et est annoté avec un schéma original qui représente jusqu’à deux émotions par segment. Des tests avec des systèmes utilisant des Transformers audio spécifiques adaptés à CEMO sur une partie des émotions non mixtes ont permis d’obtenir un score de détection ( Accuracy ) de 56.7 % pour 4 classes (peur, neutre, positif, tristesse) surpassant ceux obtenus avec des approches plus classiques basées sur des caractéristiques prosodiques expertes. Des tests supplémentaires ont été effectués sur une partie de CEMO avec des émotions mixtes, mettant en évidence certains des défis à relever, en particulier la prise en compte du contexte de l’interaction.
Reference30 articles.
1. The Neuroscience of Emotion
2. How should neuroscience study emotions? by distinguishing emotion states, concepts, and experiences;Adolphs Ralph;Social Cognitive and Affective Neuroscience,2017
3. Baevski A. et alii (2020), “Wav2vec 2.0: A framework for self-supervised learning of speech representations”, NIPS’20: Proceedings of the 34th International Conference on Neural Information Processing Systems (Vancouver BC, Canada), Red Hook (NY), Curran Associates Inc., 12449-12460.
4. The theory of constructed emotion: an active inference account of interoception and categorization;Barrett Lisa Feldman;Social Cognitive and Affective Neuroscience,2017
5. Long Short-Term Memory-Networks for Machine Reading;Cheng Jianpeng;Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing,2016