DeepSeek-R1 Outperforms Gemini 2.0 Pro, OpenAI o1, and o3-mini in Bilingual Complex Ophthalmology Reasoning
作者: Pusheng Xu, Yue Wu, Kai Jin, Xiaolan Chen, Mingguang He, Danli Shi
研究方向: 评估大型语言模型(LLMs)在双语复杂眼科推理任务中的表现,特别是DeepSeek-R1与其他先进模型(如Gemini 2.0 Pro、OpenAI o1和o3-mini)的比较。
本研究旨在评估DeepSeek-R1与其他三种先进LLMs在双语复杂眼科推理任务中的表现。通过收集130道来自中国眼科高级职称考试的多选题,并将其翻译为英文,研究比较了这些模型在诊断和管理问题上的准确性和推理能力。研究结果显示,DeepSeek-R1在中文和英文任务中均表现出色,尤其是在管理问题上表现最佳。