DeepSeek-R1 Outperforms Gemini 2.0 Pro, OpenAI o1, and o3-mini in Bilingual Complex Ophthalmology Reasoning
作者: Pusheng Xu, Yue Wu, Kai Jin, Xiaolan Chen, Mingguang He, Danli Shi
发布时间: 2025-02-27
来源: arxiv
研究方向: 评估大型语言模型(LLMs)在双语复杂眼科推理任务中的表现,特别是DeepSeek-R1与其他先进模型(如Gemini 2.0 Pro、OpenAI o1和o3-mini)的比较。
主要内容
本研究旨在评估DeepSeek-R1与其他三种先进LLMs在双语复杂眼科推理任务中的表现。通过收集130道来自中国眼科高级职称考试的多选题,并将其翻译为英文,研究比较了这些模型在诊断和管理问题上的准确性和推理能力。研究结果显示,DeepSeek-R1在中文和英文任务中均表现出色,尤其是在管理问题上表现最佳。
主要贡献
1. 首次评估了DeepSeek-R1在双语复杂眼科推理任务中的表现,并与其他三种先进LLMs进行了比较。
2. 通过分析推理逻辑和错误原因,揭示了LLMs在复杂医学推理任务中的常见问题。
3. 为LLMs在临床决策支持中的应用提供了新的见解,特别是在眼科领域。
研究方法
1. 收集了130道来自中国眼科高级职称考试的多选题,涵盖诊断和管理问题,并将其翻译为英文。
2. 使用DeepSeek-R1、Gemini 2.0 Pro、OpenAI o1和o3-mini生成答案,并计算准确率。
3. 通过分析推理逻辑和错误原因,评估了模型的推理能力。
4. 使用统计分析方法(如McNemar检验)比较了各模型的性能。
实验结果
DeepSeek-R1在中文多选题中的总体准确率为0.862,在英文多选题中的准确率为0.808,均显著高于其他模型。在管理问题上,DeepSeek-R1在中文任务中表现尤为突出。推理能力分析显示,所有模型在推理逻辑上相似,但DeepSeek-R1在识别关键线索和选择适当方法上表现更优。
未来工作
未来的研究可以进一步量化模型的推理能力,特别是在医学领域中常用的溯因推理(abductive reasoning)。此外,可以探索LLMs在多语言环境下的表现,并评估其在其他医学领域的适用性。同时,需要开发更复杂的评估指标,如一致性、泛化能力和可解释性,以更全面地评估LLMs的推理能力。