MedHallTune: An Instruction-Tuning Benchmark for Mitigating Medical Hallucination in Vision-Language Models
作者: Qiao Yan, Yuchen Yuan, Xiaowei Hu, Yihan Wang, Jiaqi Xu, Jinpeng Li, Chi-Wing Fu, Pheng-Ann Heng
发布时间: 2025-03-03
来源: arxiv
研究方向: 医学领域视觉语言模型(VLMs)的幻觉问题研究
主要内容
本文提出了一种名为MedHallTune的大规模基准数据集,旨在评估和缓解医学VLMs中的幻觉问题。MedHallTune包含超过10万张图像和100万条指令对,包括幻觉和非幻觉样本,每个样本都有真实标注。研究人员使用MedHallTune对现有的医学和通用VLMs进行了全面评估,并展示了通过在MedHallTune上进行微调,可以显著提高模型处理幻觉的能力,并提升其在下游视觉问答(VQA)任务上的零样本性能。
主要贡献
1. 构建了MedHallTune,一个包含超过10万张图像和100万条指令对的大规模数据集,专门用于医学应用。
2. 提出了一套新的评估指标,全面评估VLMs在应对医疗幻觉方面的表现,包括临床准确性、临床相关性、细节水平和风险水平。
3. 证明了使用MedHallTune进行微调可以显著提高模型处理幻觉的能力,并提升其在下游VQA任务上的零样本性能。
研究方法
1. 数据集构建:从PubMed数据库中选取了超过10万张图像,并使用GPT-4o生成包含幻觉和非幻觉样本的指令数据。
2. 质量控制:通过自我检查机制过滤掉不正确的解释,确保数据集的完整性。
3. 评估指标:提出了基于临床准确性、临床相关性、细节水平和风险水平的评估指标。
4. 模型微调:使用LoRA在MedHallTune的训练集上对模型进行微调。
实验结果
实验结果表明,使用MedHallTune进行微调的模型在处理幻觉方面表现更好,其临床准确性、临床相关性、细节水平和风险水平均有所提高。此外,微调后的模型在下游VQA任务上的零样本性能也得到了提升。
未来工作
未来可以进一步研究如何将MedHallTune应用于其他领域,并探索更有效的幻觉缓解方法。