PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training

作者: Cong Chen, Mingyu Liu, Chenchen Jing, Yizhou Zhou, Fengyun Rao, Hao Chen, Bo Zhang, Chunhua Shen

发布时间: 2025-03-11

来源: arxiv

研究方向: 多模态大型语言模型(MLLM)的幻觉问题研究

主要内容

本文针对多模态大型语言模型(MLLM)在密集图像描述任务中存在的幻觉问题进行研究。为了解决这一问题,作者们提出了一种名为PerturboLLaVA的新方法,旨在减少模型对语言先验的依赖,并提高其在视觉输入上的关注。此外,还引入了HalFscore这一新指标,用于更细致地评估密集图像描述的准确性和完整性。

主要贡献

1. 提出了HalFscore,一个基于语言图的全新指标,用于评估密集图像描述的准确性和完整性。

2. 识别了模型幻觉的根本原因——对语言先验的过度依赖,并提出PerturboLLaVA方法来减少这种依赖。

3. PerturboLLaVA方法通过在训练过程中引入对抗性扰动的文本来增强模型对视觉输入的关注,从而有效减少幻觉并提高描述的准确性。

4. PerturboLLaVA方法在处理多模态幻觉和跨通用多模态基准测试中取得了显著的性能提升。

研究方法

1. HalFscore:通过构建语言图来捕获主要概念及其关系,并计算其与真实值的差异。

2. PerturboLLaVA:通过在训练过程中引入对抗性扰动的文本来减少模型对语言先验的依赖。

3. Perturbation Text Design:确保扰动的文本在上下文中相关、与预训练知识一致,并且具有语义变化。

实验结果

实验结果表明,PerturboLLaVA方法在处理多模态幻觉和跨通用多模态基准测试中取得了显著的性能提升,优于现有方法。此外,HalFscore指标与人类评估结果具有良好的相关性,证明了其有效性和可靠性。

未来工作

未来研究可以集中在以下几个方面:进一步优化PerturboLLaVA方法,提高其在更复杂任务上的性能;探索其他类型的扰动文本,以增强模型的鲁棒性;将HalFscore应用于其他多模态任务,以评估模型的表现。