Abstract
理解表达的情感和情绪是多模态情感分析的两个关键因素。人类语言通常是多模态的,包括视觉觉,语音以及文本三个模态,而每个模态又包含众多不同信息,比如文本模态包括基本的语言符号、句法和语言动作等, 语音模态包括:语音、语调以及声音表达等。视觉模态包括姿态特征、身体语言、眼神以及面部表达等信息。因此如何高效融合模态间信息便成为当下多模态情感分析领域的一个热点问题。为此,文章提出一种基于跨模块融合网络模型。该模型利用LSTM网络作为语言、视觉模态的表示子网络,同时利用改进升级的Transformer模型的跨模块融合对两种模态信息进行有效融合;为了验证文章中提出的模型的效果,在IEMOCAP和MOSEI数据集上进行了仔细评估,结果表明,该模型针对情感分类的准确度有所提高。
Publisher
Shuangqing Academic Publishing House Limited
Cited by
7 articles.
订阅此论文施引文献
订阅此论文施引文献,注册后可以免费订阅5篇论文的施引文献,订阅后可以查看论文全部施引文献