Large Language Models for Outpatient Referral: Problem Definition, Benchmarking and Challenges
作者: Xiaoxiao Liu, Qingying Xiao, Junying Chen, Xiangyi Feng, Xiangbo Wu, Bairui Zhang, Xiang Wan, Jian Chang, Guangjun Yu, Yan Hu, Benyou Wang
发布时间: 2025-03-12
来源: arxiv
研究方向: 医疗资源分配与智能导诊系统
主要内容
本研究探讨了大型语言模型(LLM)在智能门诊导诊(IOR)系统中的应用,旨在通过评估LLM在静态分类和动态交互对话中的能力来优化患者转诊流程。
主要贡献
1. 提出了一个由静态评估和动态评估组成的综合评估框架,以评估LLM在智能门诊导诊系统中的表现。
2. 建立了智能门诊导诊(IOR)基准,包括静态分类和动态对话评估两个任务。
3. 表明LLM在动态交互对话中提出有效问题的能力有限,但具有潜力。
4. 发现LLM在静态分类任务中与BERT等模型相比没有显著优势,但在动态交互对话中具有优势。
研究方法
1. 静态评估:利用各种提示策略评估模型在静态分类任务中的鲁棒性。
2. 动态评估:模拟实时医患对话,评估模型通过迭代提问提高转诊推荐准确性的能力。
3. 数据集:创建了一个包含1,476个案例的智能门诊导诊(IOR)数据集。
4. 模型:评估了多种LLM,包括GPT-4o、DeepSeek-r1、DeepSeek-v3等。
5. 基准:与人类专家进行了比较,以评估LLM的性能。
实验结果
LLM在静态分类任务中表现不如BERT等传统分类模型,但在动态交互对话中表现出更强的能力。LLM在动态评估中表现出色,尤其是在需要澄清问题的场景中。人类专家在动态任务中的准确性随时间下降,而LLM的表现保持稳定。
未来工作
未来的工作将包括改进LLM在动态对话中提出后续问题的能力,以及探索将LLM应用于其他医疗咨询场景的可能性。