DeepSeek-R1 Outperforms Gemini 2.0 Pro, OpenAI o1, and o3-mini in Bilingual Complex Ophthalmology Reasoning

作者: Pusheng Xu, Yue Wu, Kai Jin, Xiaolan Chen, Mingguang He, Danli Shi

研究方向: 评估大型语言模型(LLMs)在双语复杂眼科推理任务中的表现,特别是DeepSeek-R1与其他先进模型(如Gemini 2.0 Pro、OpenAI o1和o3-mini)的比较。

本研究旨在评估DeepSeek-R1与其他三种先进LLMs在双语复杂眼科推理任务中的表现。通过收集130道来自中国眼科高级职称考试的多选题,并将其翻译为英文,研究比较了这些模型在诊断和管理问题上的准确性和推理能力。研究结果显示,DeepSeek-R1在中文和英文任务中均表现出色,尤其是在管理问题上表现最佳。

ID: 2502.17947v1来源: arxiv发布时间: 2025-02-27

Optimal Brain Apoptosis

作者: Mingyuan Sun, Zheng Fang, Jiaxu Wang, Junjie Jiang, Delei Kong, Chenming Hu, Yuetong Fang, Renjing Xu

研究方向: 深度学习模型压缩与剪枝

本文提出了一种新的神经网络剪枝方法——Optimal Brain Apoptosis (OBA),旨在通过直接计算Hessian-vector product来精确估计参数的重要性,从而在不显著降低模型性能的前提下,减少卷积神经网络(CNNs)和Transformer模型的参数量和计算复杂度。该方法基于Optimal Brain Damage (OBD)的思想,通过分解Hessian矩阵并计算每层之间的Hessian子矩阵,提出了一种高效的计算二阶泰勒展开的方法。

ID: 2502.17941v1来源: arxiv发布时间: 2025-02-27

Integrating Boosted learning with Differential Evolution (DE) Optimizer: A Prediction of Groundwater Quality Risk Assessment in Odisha

作者: Sonalika Subudhi, Alok Kumar Pati, Sephali Bose, Subhasmita Sahoo, Avipsa Pattanaik, Biswa Mohan Acharya

研究方向: 地下水质量评估与预测

本研究旨在通过机器学习技术评估和预测印度奥里萨邦的地下水质量,特别是针对Sukinda Valley地区因铬矿开采导致的地下水污染问题。研究采用了来自印度中央地下水委员会(CGWB)2019-2022年的数据集,结合机器学习模型(如CatBoost、LightGBM及其混合模型LCBoost Fusion)进行地下水质量指数(GWQI)的预测。研究通过数据预处理、特征工程、模型训练和优化等步骤,最终提出了一个高效的地下水质量预测模型。

ID: 2502.17929v1来源: arxiv发布时间: 2025-02-27

Structure-prior Informed Diffusion Model for Graph Source Localization with Limited Data

作者: Hongyi Chen, Jingtao Ding, Xiaojun Liang, Yong Li, Xiao-Ping Zhang

研究方向: 图信息传播中的源定位问题

本文提出了一种基于结构先验的扩散模型(SIDSL),用于在有限数据情况下进行图信息传播中的源定位。SIDSL通过结合图标签传播和GNN参数化的标签传播模块(GNN-LP),解决了未知传播模式、复杂拓扑-传播关系以及源节点与非源节点之间的类别不平衡问题。该模型利用结构先验信息,通过扩散模型进行去噪,从而在有限数据情况下实现鲁棒的源定位。

ID: 2502.17928v1来源: arxiv发布时间: 2025-02-27

LeanProgress: Guiding Search for Neural Theorem Proving via Proof Progress Prediction

作者: Suozhi Huang, Peiyang Song, Robert Joseph George, Anima Anandkumar

研究方向: 自动化定理证明与形式化验证

本文提出了LeanProgress,一种通过预测证明进度来指导神经网络定理证明的方法。该方法结合了Large Language Models (LLMs) 和Lean证明助手,旨在解决LLMs在长证明和复杂数学形式化中的困难。LeanProgress通过预测证明的剩余步骤,提供了全局的证明进度视图,从而提高了自动化定理证明的效率。

ID: 2502.17925v1来源: arxiv发布时间: 2025-02-27

Unmasking Gender Bias in Recommendation Systems and Enhancing Category-Aware Fairness

作者: Tahsin Alamgir Kheya, Mohamed Reda Bouadjenek, Sunil Aryal

研究方向: 推荐系统中的性别偏见检测与公平性增强

本文研究了推荐系统中存在的性别偏见问题,并提出了一套新的评估指标来量化这种偏见。通过引入类别感知的公平性指标,并结合推荐损失函数进行训练,作者展示了如何有效减少模型输出中的偏见。实验在三个真实世界的数据集上进行,使用了五个基线模型和两个流行的公平性感知模型,验证了所提出指标的有效性。

ID: 2502.17921v1来源: arxiv发布时间: 2025-02-27

Decoupled Graph Energy-based Model for Node Out-of-Distribution Detection on Heterophilic Graphs

作者: Yuhan Chen, Yihong Luo, Yifan Song, Pengwen Dai, Jing Tang, Xiaochun Cao

研究方向: 图学习中的节点分布外检测(OOD Detection on Graphs)

本文提出了一种新的图能量模型DeGEM,用于解决图学习中的节点分布外检测问题。传统的OOD检测方法主要针对图像数据,假设输入数据是独立同分布的(i.i.d.),而图数据中的节点之间存在依赖关系,导致这些方法无法直接应用于图数据。DeGEM通过解耦图能量模型,将学习过程分为图编码器和能量头两部分,避免了传统方法中的能量传播问题,特别是在异质图(heterophilic graphs)上的性能下降问题。

ID: 2502.17912v1来源: arxiv发布时间: 2025-02-27

ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval

作者: Guanqi Zhan, Yuanpei Liu, Kai Han, Weidi Xie, Andrew Zisserman

研究方向: 视觉语言基础模型与图像检索

本文提出了一种名为ELIP(Enhanced Language-Image Pre-training)的新框架,旨在提升大规模预训练视觉语言模型在文本到图像检索任务中的性能。该框架通过使用文本查询来预测一组视觉提示向量,并将其用于条件化ViT图像编码器,从而增强模型的检索能力。

ID: 2502.15682v1来源: arxiv发布时间: 2025-02-25

One-step Diffusion Models with $f$-Divergence Distribution Matching

作者: Yilun Xu, Weili Nie, Arash Vahdat

研究方向: 生成模型,扩散模型,模型蒸馏

本文提出了一种基于f-散度最小化的新型蒸馏框架,称为f-distill,用于加速扩散模型的生成过程。该框架通过匹配学生模型和教师模型生成的样本分布来提高生成速度,并通过使用不同的f-散度来优化生成效果。

ID: 2502.15681v1来源: arxiv发布时间: 2025-02-25

BOSS: Benchmark for Observation Space Shift in Long-Horizon Task

作者: Yue Yang, Linfeng Zhao, Mingyu Ding, Gedas Bertasius, Daniel Szafir

研究方向: 机器人学习与仿学习

该论文研究了在机器人长时任务中,由于先前技能执行导致的观察空间变化(OSS)对技能性能的影响。通过构建BOSS基准,评估了不同仿学习算法在长时任务中的表现,并探讨了数据增强方法对缓解OSS问题的有效性。

ID: 2502.15679v1来源: arxiv发布时间: 2025-02-25