Large Language Models for Outpatient Referral: Problem Definition, Benchmarking and Challenges

作者: Xiaoxiao Liu, Qingying Xiao, Junying Chen, Xiangyi Feng, Xiangbo Wu, Bairui Zhang, Xiang Wan, Jian Chang, Guangjun Yu, Yan Hu, Benyou Wang

发布时间: 2025-03-12

来源: arxiv

研究方向: 医疗资源分配与智能导诊系统

主要内容

本研究探讨了大型语言模型(LLM)在智能门诊导诊(IOR)系统中的应用,旨在通过评估LLM在静态分类和动态交互对话中的能力来优化患者转诊流程。

主要贡献

1. 提出了一个由静态评估和动态评估组成的综合评估框架,以评估LLM在智能门诊导诊系统中的表现。

2. 建立了智能门诊导诊(IOR)基准,包括静态分类和动态对话评估两个任务。

3. 表明LLM在动态交互对话中提出有效问题的能力有限,但具有潜力。

4. 发现LLM在静态分类任务中与BERT等模型相比没有显著优势,但在动态交互对话中具有优势。

研究方法

1. 静态评估:利用各种提示策略评估模型在静态分类任务中的鲁棒性。

2. 动态评估:模拟实时医患对话,评估模型通过迭代提问提高转诊推荐准确性的能力。

3. 数据集:创建了一个包含1,476个案例的智能门诊导诊(IOR)数据集。

4. 模型:评估了多种LLM,包括GPT-4o、DeepSeek-r1、DeepSeek-v3等。

5. 基准:与人类专家进行了比较,以评估LLM的性能。

实验结果

LLM在静态分类任务中表现不如BERT等传统分类模型,但在动态交互对话中表现出更强的能力。LLM在动态评估中表现出色,尤其是在需要澄清问题的场景中。人类专家在动态任务中的准确性随时间下降,而LLM的表现保持稳定。

未来工作

未来的工作将包括改进LLM在动态对话中提出后续问题的能力,以及探索将LLM应用于其他医疗咨询场景的可能性。