Daily Papers

BiasEdit: Debiasing Stereotyped Language Models via Model Editing

作者: Xin Xu, Wei Xu, Ningyu Zhang, Julian McAuley

研究方向: 自然语言处理（NLP）中的偏见消除与模型编辑

本文提出了一种名为BIASEDIT的模型编辑方法，用于消除语言模型中的刻板印象偏见。该方法通过轻量级网络生成参数更新，对语言模型的局部参数进行编辑，以消除偏见，同时保留语言模型的能力。

ID: 2503.08588v1•来源: arxiv•发布时间: 2025-03-12

MsaMIL-Net: An End-to-End Multi-Scale Aware Multiple Instance Learning Network for Efficient Whole Slide Image Classification

作者: Jiangping Wen, Jinyu Wen, Meie Fang

研究方向: 医学图像分析、深度学习、全切片图像分类、多尺度特征提取、多实例学习

MsaMIL-Net是一种基于多尺度多实例学习网络框架的端到端全切片图像分类方法。该方法通过结合多尺度特征提取和多实例学习，有效提升了全切片图像的分类性能。

ID: 2503.08581v2•来源: arxiv•发布时间: 2025-03-13

MsaMIL-Net: An End-to-End Multi-Scale Aware Multiple Instance Learning Network for Efficient Whole Slide Image Classification

作者: Jiangping Wen, Jinyu Wen, Emei Fang

研究方向: 医学图像分析，特别是全切片图像（WSI）的分类

提出了一种名为MsaMIL-Net的端到端多尺度感知多个实例学习网络框架，用于高效的全切片图像分类。该框架结合了多尺度特征提取和多实例学习，旨在提高WSI分类的性能。

ID: 2503.08581v1•来源: arxiv•发布时间: 2025-03-12

When Discourse Stalls: Moving Past Five Semantic Stopsigns about Generative AI in Design Research

作者: Willem van der Maden, Vera van der Burg, Brett A. Halperin, Petra Jääskeläinen, Joseph Lindley, Derek Lomas, Timothy Merritt

研究方向: 设计研究中的生成式人工智能（GenAI）应用与挑战

本文探讨了生成式人工智能（GenAI）在设计中应用的快速变化，以及围绕GenAI的讨论如何陷入过度简化的叙事，阻碍了有意义的研究和实际进展。文章识别并解构了五个常见的“语义红灯”——关于设计中GenAI的简化框架，这些框架阻碍了更深入的探究和有成效的参与。

ID: 2503.08565v1•来源: arxiv•发布时间: 2025-03-12

MoE-Loco: Mixture of Experts for Multitask Locomotion

作者: Runhan Huang, Shaoting Zhu, Yilun Du, Hang Zhao

研究方向: 机器人运动规划和多任务学习

MoE-Loco是一种基于混合专家（MoE）框架的多任务运动规划方法，旨在训练一个能够处理多种地形和运动模式的单一策略，适用于四足机器人。

ID: 2503.08564v1•来源: arxiv•发布时间: 2025-03-12

Can We Detect Failures Without Failure Data? Uncertainty-Aware Runtime Failure Detection for Imitation Learning Policies

作者: Chen Xu, Tony Khuong Nguyen, Emma Dixon, Christopher Rodriguez, Patrick Miller, Robert Lee, Paarth Shah, Rares Ambrus, Haruki Nishimura, Masha Itkina

研究方向: 机器人学与机器学习

该论文研究了如何在不依赖失败数据的情况下检测机器人操作中的故障。作者提出了FAIL-Detect，一种基于模仿学习的机器人操作故障检测方法，通过提取策略输入和输出的标量信号，并利用符合性预测进行不确定性量化，从而实现故障检测。

ID: 2503.08558v1•来源: arxiv•发布时间: 2025-03-12

Reasoning and Sampling-Augmented MCQ Difficulty Prediction via LLMs

作者: Wanyong Feng, Peter Tran, Stephen Sireci, Andrew Lan

研究方向: 教育评估与人工智能

本文提出了一种基于大型语言模型（LLMs）的MCQ难度预测方法，旨在通过理解MCQ的复杂性和迷惑性来预测难度。

ID: 2503.08551v1•来源: arxiv•发布时间: 2025-03-13

Graph of AI Ideas: Leveraging Knowledge Graphs and LLMs for AI Research Idea Generation

作者: Xian Gao, Zongyun Zhang, Mingye Xie, Ting Liu, Yuzhuo Fu

研究方向: 人工智能研究思想生成

本文提出了一种名为GoAI的框架，旨在利用知识图谱和大型语言模型（LLMs）来生成人工智能领域的研究思想。该框架通过组织相关文献到知识图谱中的实体，并将引文中的语义信息总结为图中的关系，有效地反映了学术论文之间的关系和人工智能研究领域的进步。通过LLMs捕捉研究进展，从而增强其创造力。

ID: 2503.08549v1•来源: arxiv•发布时间: 2025-03-12

DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering

作者: Sher Badshah, Hassan Sajjad

研究方向: 自然语言处理（NLP）和大型语言模型（LLM）的评估

本文研究了如何评估自由形式问答（QA）中LLM生成的响应。由于LLM生成的响应多样且开放，传统的评估方法难以捕捉语义等价或处理开放性响应的变异性。本文提出了动态仲裁框架（DAFE），该框架利用两个LLM作为法官，并在法官意见不一致时才介入第三个仲裁员。DAFE通过使用特定任务的参考答案和动态仲裁来提高判断准确性，在宏F1和Cohen's Kappa等评估指标上取得了显著改进。

ID: 2503.08542v1•来源: arxiv•发布时间: 2025-03-12

Mellow: a small audio language model for reasoning

作者: Soham Deshmukh, Satvik Dixit, Rita Singh, Bhiksha Raj

研究方向: 音频语言模型与推理能力

本研究提出了一种名为Mellow的小型音频语言模型，专门设计用于推理任务。通过设计特定的训练数据和模型架构，Mellow在多个推理任务上取得了优异的性能，证明了即使在参数规模较小的情况下，也能够实现强大的推理能力。

ID: 2503.08540v1•来源: arxiv•发布时间: 2025-03-13