TPC: Cross-Temporal Prediction Connection for Vision-Language Model Hallucination Reduction
作者: Chao Wang, Weiwei Fu, Yang Zhou
发布时间: 2025-03-07
来源: arxiv
研究方向: 视觉语言模型(VLM)与幻觉减少
主要内容
本文研究了视觉语言模型(VLM)中幻觉问题,提出了跨时间预测连接(TPC)方法,通过连接不同时间步的logits来增强语义一致性,从而减少幻觉。
主要贡献
1. 提出了一种简单、高效、训练自由的跨时间预测连接(TPC)方法,用于减轻视觉语言模型中的幻觉。
2. 发现了logits的连续一致性增强特性,并通过理论和实验验证了其有效性。
3. 通过广泛的实验证明了TPC在减轻对象幻觉、开放式文本生成任务中的优越性,以及对输入中幻觉token的强鲁棒性,优于现有的对比解码方法。
研究方法
1. 分析了logits的连续一致性增强特性。
2. 提出了线性时间预测连接(LTPC)和衰减时间预测连接(ATPC)方法。
3. 进行了大量的实验,包括在POPE、MME和MMHal-Bench数据集上的实验,以及消融实验和定性分析。
实验结果
实验结果表明,TPC在减轻对象幻觉、提高开放式文本生成任务的质量方面优于现有的对比解码方法,同时保持了鲁棒性。
未来工作
未来工作将包括对隐藏状态之间跨时间步的连接进行更全面的研究。