Aligning LLMs to Ask Good Questions A Case Study in Clinical Reasoning

作者: Shuyue Stella Li, Jimin Mun, Faeze Brahman, Jonathan S. Ilgen, Yulia Tsvetkov, Maarten Sap

发布时间: 2025-02-24

来源: arxiv

研究方向: 人工智能与临床推理

主要内容

本文提出了一种名为ALFA的框架,旨在通过将“良好”问题的概念分解为一系列理论基础的属性,并使用偏好优化算法来指导模型学习这些属性,从而提高大型语言模型(LLM)在临床推理中的问答能力。

主要贡献

1. 定义了六个关键属性来衡量问题的质量,包括清晰度、焦点、可回答性、医学准确性、诊断相关性和避免诊断偏差。

2. 提出了ALFA框架,该框架通过分解目标、生成属性特定的数据以及整合属性来训练模型。

3. 构建了MediQ-AskDocs数据集,该数据集包含临床交互和属性特定的偏好对。

4. 通过实验表明,与SOTA指令调整的LLM相比,ALFA模型在MediQ-AskDocs数据集上减少了56.6%的诊断错误,并具有强大的泛化能力。

研究方法

1. 属性分解:将“良好”问题的概念分解为一系列理论基础的属性。

2. 属性特定数据生成:通过改变特定属性来生成合成数据。

3. 属性整合策略:使用数据混合、奖励融合或策略融合来整合属性特定的数据。

4. 偏好优化:使用偏好优化算法来训练模型,使其能够根据属性来提出更好的问题。

实验结果

ALFA模型在MediQ-AskDocs数据集上减少了56.6%的诊断错误,并且与SOTA指令调整的LLM相比,在问答评估中具有64.4%的胜率。

未来工作

未来工作将包括探索ALFA在更多领域的应用,改进属性选择和评估方法,以及提高模型在处理复杂场景和不确定性时的能力。