MedHallTune: An Instruction-Tuning Benchmark for Mitigating Medical Hallucination in Vision-Language Models

作者: Qiao Yan, Yuchen Yuan, Xiaowei Hu, Yihan Wang, Jiaqi Xu, Jinpeng Li, Chi-Wing Fu, Pheng-Ann Heng

发布时间: 2025-03-03

来源: arxiv

研究方向: 医学领域视觉语言模型(VLMs)的幻觉问题研究

主要内容

本文提出了一种名为MedHallTune的大规模基准数据集,旨在评估和缓解医学VLMs中的幻觉问题。MedHallTune包含超过10万张图像和100万条指令对,包括幻觉和非幻觉样本,每个样本都有真实标注。研究人员使用MedHallTune对现有的医学和通用VLMs进行了全面评估,并展示了通过在MedHallTune上进行微调,可以显著提高模型处理幻觉的能力,并提升其在下游视觉问答(VQA)任务上的零样本性能。

主要贡献

1. 构建了MedHallTune,一个包含超过10万张图像和100万条指令对的大规模数据集,专门用于医学应用。

2. 提出了一套新的评估指标,全面评估VLMs在应对医疗幻觉方面的表现,包括临床准确性、临床相关性、细节水平和风险水平。

3. 证明了使用MedHallTune进行微调可以显著提高模型处理幻觉的能力,并提升其在下游VQA任务上的零样本性能。

研究方法

1. 数据集构建:从PubMed数据库中选取了超过10万张图像,并使用GPT-4o生成包含幻觉和非幻觉样本的指令数据。

2. 质量控制:通过自我检查机制过滤掉不正确的解释,确保数据集的完整性。

3. 评估指标:提出了基于临床准确性、临床相关性、细节水平和风险水平的评估指标。

4. 模型微调:使用LoRA在MedHallTune的训练集上对模型进行微调。

实验结果

实验结果表明,使用MedHallTune进行微调的模型在处理幻觉方面表现更好,其临床准确性、临床相关性、细节水平和风险水平均有所提高。此外,微调后的模型在下游VQA任务上的零样本性能也得到了提升。

未来工作

未来可以进一步研究如何将MedHallTune应用于其他领域,并探索更有效的幻觉缓解方法。