MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning
作者: Xiangru Tang, Daniel Shao, Jiwoong Sohn, Jiapeng Chen, Jiayi Zhang, Jinyu Xiang, Fang Wu, Yilun Zhao, Chenglin Wu, Wenqi Shi, Arman Cohan, Mark Gerstein
发布时间: 2025-03-11
来源: arxiv
研究方向: 医疗推理和智能辅助诊断
主要内容
本文介绍了MEDAGENTSBENCH,一个针对复杂医疗推理任务而设计的基准,旨在评估大型语言模型(LLMs)在医疗推理中的能力。通过对多个医疗数据集的分析和实验,评估了不同模型和推理方法在复杂医疗推理任务中的性能,并分析了性能、成本和推理时间之间的关系。
主要贡献
1. 提出了MEDAGENTSBENCH基准,用于评估复杂医疗推理任务
2. 通过实验证明了DEEPSEEK R1和OPENAI O3在复杂医疗推理任务中的优异表现
3. 分析了高级搜索型智能体方法在性能与成本之间的平衡
4. 揭示了不同模型在复杂问题上的性能差距,并确定了不同计算约束下的最佳模型选择
5. 提供了公开可用的基准和评估框架
研究方法
1. 从七个已建立的医疗数据集中选取问题
2. 应用对抗性过滤识别具有挑战性的问题
3. 进行彻底的污染分析以确保有效性
4. 结合医疗专业人员的人类标注以验证推理深度要求
5. 使用多种基础模型和推理方法进行实验
6. 分析性能、成本和推理时间之间的关系
实验结果
实验结果表明,DEEPSEEK R1和OPENAI O3在复杂医疗推理任务中表现出色,高级搜索型智能体方法在性能与成本之间取得了良好的平衡,开源模型在较低的操作成本下实现了具有竞争力的结果。
未来工作
未来研究应探索将思维模型的内在推理能力与专门的医学知识框架相结合的混合方法,并开发更复杂的验证机制以确保临床准确性和安全性。此外,还应研究更复杂的集成方法,如逐步验证、任务验证和动态智能体协作,以提高推理性能。