Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation

作者: Jun Yu, Lingsi Zhu, Yanjun Chi, Yunxiang Zhang, Yang Zheng, Yongqi Wang, Xilong Lu

发布时间: 2025-03-15

来源: arxiv

研究方向: 情感模拟强度(EMI)估计和跨模态情感识别

主要内容

提出了一种基于双阶段跨模态对齐框架的情感模拟强度(EMI)估计方法,用于理解和增强人机交互体验。

主要贡献

1. 1. 提出了一种双阶段训练范式,第一阶段基于CLIP架构构建视觉-文本和音频-文本对比学习网络,实现特征空间的初步对齐。

2. 2. 设计了一个时序感知的动态融合模块,结合了时间卷积网络(TCN)和门控双向LSTM,分别捕捉面部表情的宏观演变模式和声学特征的局部动态。

3. 3. 引入了一种质量引导的模态融合策略,通过可微分的权重分配实现遮挡和噪声场景下的模态补偿。

研究方法

1. 1. 使用CLIP架构进行视觉-文本和音频-文本对比学习。

2. 2. 采用TCN和双向LSTM进行时序特征提取。

3. 3. 设计了一种质量感知的动态融合机制。

4. 4. 使用多层Transformer进行情感强度预测。

实验结果

在Hume-Vidmimic2数据集上,该方法在六个情感维度上实现了平均皮尔逊相关系数0.35,比最佳基线提高了40%。消融研究进一步验证了双阶段训练策略和动态融合机制的有效性。

未来工作

未来的工作可以集中在提高模型的鲁棒性、实时性和跨文化适应性上。