BeMERC: Behavior-Aware MLLM-based Framework for Multimodal Emotion Recognition in Conversation

作者: Yumeng Fu, Junjie Wu, Zhongjie Wang, Meishan Zhang, Yulin Wu, Bingquan Liu

发布时间: 2025-04-03

来源: arxiv

研究方向: 多模态情感识别（MERC）

主要内容

本文提出了一种名为BeMERC的行为感知多模态情感识别框架，旨在通过融合视频中的行为信息（如面部表情、身体语言和姿态）来提高对话中情感识别的准确性。

1. 提出了BeMERC，一个基于行为感知的MLLM多模态情感识别框架。

2. 提出了一种通过Qwen2-VL生成视频行为描述的方法。

3. 采用了两阶段指令微调策略，以增强LLM在对话场景中的性能。

4. 在IEMOCAP和MELD数据集上实现了优于现有方法的性能。

1. 利用Qwen2-VL生成视频行为的自然语言描述。

2. 采用两阶段指令微调策略进行端到端训练。

3. 使用DenseNet和OpenSMILE进行视频和音频模态的编码。

4. 使用LoRA进行大型语言模型的微调。

在IEMOCAP和MELD数据集上，BeMERC在整体准确率和加权F1分数方面均优于现有方法，表明其具有更高的泛化能力和更精确的预测能力。

进一步研究如何将BeMERC应用于更广泛的场景，并探索更有效的行为信息提取和融合方法。