Aligning LLMs to Ask Good Questions A Case Study in Clinical Reasoning

作者: Shuyue Stella Li, Jimin Mun, Faeze Brahman, Jonathan S. Ilgen, Yulia Tsvetkov, Maarten Sap

发布时间: 2025-02-24

来源: arxiv

研究方向: 人工智能与临床推理

主要内容

本文提出了一种名为ALFA的框架，旨在通过将“良好”问题的概念分解为一系列理论基础的属性，并使用偏好优化算法来指导模型学习这些属性，从而提高大型语言模型（LLM）在临床推理中的问答能力。

1. 定义了六个关键属性来衡量问题的质量，包括清晰度、焦点、可回答性、医学准确性、诊断相关性和避免诊断偏差。

2. 提出了ALFA框架，该框架通过分解目标、生成属性特定的数据以及整合属性来训练模型。

3. 构建了MediQ-AskDocs数据集，该数据集包含临床交互和属性特定的偏好对。

4. 通过实验表明，与SOTA指令调整的LLM相比，ALFA模型在MediQ-AskDocs数据集上减少了56.6%的诊断错误，并具有强大的泛化能力。

1. 属性分解：将“良好”问题的概念分解为一系列理论基础的属性。

2. 属性特定数据生成：通过改变特定属性来生成合成数据。

3. 属性整合策略：使用数据混合、奖励融合或策略融合来整合属性特定的数据。

4. 偏好优化：使用偏好优化算法来训练模型，使其能够根据属性来提出更好的问题。

ALFA模型在MediQ-AskDocs数据集上减少了56.6%的诊断错误，并且与SOTA指令调整的LLM相比，在问答评估中具有64.4%的胜率。

未来工作将包括探索ALFA在更多领域的应用，改进属性选择和评估方法，以及提高模型在处理复杂场景和不确定性时的能力。