MedHallTune: An Instruction-Tuning Benchmark for Mitigating Medical Hallucination in Vision-Language Models

作者: Qiao Yan, Yuchen Yuan, Xiaowei Hu, Yihan Wang, Jiaqi Xu, Jinpeng Li, Chi-Wing Fu, Pheng-Ann Heng

发布时间: 2025-03-03

来源: arxiv

研究方向: 医学领域视觉语言模型（VLMs）的幻觉问题研究

主要内容

本文提出了一种名为MedHallTune的大规模基准数据集，旨在评估和缓解医学VLMs中的幻觉问题。MedHallTune包含超过10万张图像和100万条指令对，包括幻觉和非幻觉样本，每个样本都有真实标注。研究人员使用MedHallTune对现有的医学和通用VLMs进行了全面评估，并展示了通过在MedHallTune上进行微调，可以显著提高模型处理幻觉的能力，并提升其在下游视觉问答（VQA）任务上的零样本性能。

主要贡献

1. 构建了MedHallTune，一个包含超过10万张图像和100万条指令对的大规模数据集，专门用于医学应用。

2. 提出了一套新的评估指标，全面评估VLMs在应对医疗幻觉方面的表现，包括临床准确性、临床相关性、细节水平和风险水平。

3. 证明了使用MedHallTune进行微调可以显著提高模型处理幻觉的能力，并提升其在下游VQA任务上的零样本性能。

研究方法

1. 数据集构建：从PubMed数据库中选取了超过10万张图像，并使用GPT-4o生成包含幻觉和非幻觉样本的指令数据。

2. 质量控制：通过自我检查机制过滤掉不正确的解释，确保数据集的完整性。

3. 评估指标：提出了基于临床准确性、临床相关性、细节水平和风险水平的评估指标。

4. 模型微调：使用LoRA在MedHallTune的训练集上对模型进行微调。

实验结果

实验结果表明，使用MedHallTune进行微调的模型在处理幻觉方面表现更好，其临床准确性、临床相关性、细节水平和风险水平均有所提高。此外，微调后的模型在下游VQA任务上的零样本性能也得到了提升。

未来工作

未来可以进一步研究如何将MedHallTune应用于其他领域，并探索更有效的幻觉缓解方法。