BeMERC: Behavior-Aware MLLM-based Framework for Multimodal Emotion Recognition in Conversation
作者: Yumeng Fu, Junjie Wu, Zhongjie Wang, Meishan Zhang, Yulin Wu, Bingquan Liu
发布时间: 2025-04-03
来源: arxiv
研究方向: 多模态情感识别(MERC)
主要内容
本文提出了一种名为BeMERC的行为感知多模态情感识别框架,旨在通过融合视频中的行为信息(如面部表情、身体语言和姿态)来提高对话中情感识别的准确性。
主要贡献
1. 提出了BeMERC,一个基于行为感知的MLLM多模态情感识别框架。
2. 提出了一种通过Qwen2-VL生成视频行为描述的方法。
3. 采用了两阶段指令微调策略,以增强LLM在对话场景中的性能。
4. 在IEMOCAP和MELD数据集上实现了优于现有方法的性能。
研究方法
1. 利用Qwen2-VL生成视频行为的自然语言描述。
2. 采用两阶段指令微调策略进行端到端训练。
3. 使用DenseNet和OpenSMILE进行视频和音频模态的编码。
4. 使用LoRA进行大型语言模型的微调。
实验结果
在IEMOCAP和MELD数据集上,BeMERC在整体准确率和加权F1分数方面均优于现有方法,表明其具有更高的泛化能力和更精确的预测能力。
未来工作
进一步研究如何将BeMERC应用于更广泛的场景,并探索更有效的行为信息提取和融合方法。