Process-based Self-Rewarding Language Models

作者: Shimao Zhang, Xiao Liu, Xin Zhang, Junxiao Liu, Zheheng Luo, Shujian Huang, Yeyun Gong

研究方向: 自然语言处理与人工智能

本文提出了一种基于过程的自我奖励语言模型(Process-based Self-Rewarding Language Models),旨在解决现有自我奖励方法在数学推理场景中的不足,并提升大型语言模型(LLMs)在数学推理任务上的表现。

ID: 2503.03746v1来源: arxiv发布时间: 2025-03-07

CHOP: Mobile Operating Assistant with Constrained High-frequency Optimized Subtask Planning

作者: Yuqi Zhou, Shuai Wang, Sunhao Dai, Qinglin Jia, Zhaocheng Du, Zhenhua Dong, Jun Xu

研究方向: 移动操作系统助手与视觉语言模型

本文提出了一种名为CHOP(Constrained High-frequency Optimized Subtask Planning)的移动操作系统助手架构,该架构通过使用基于人类规划的子任务作为“基础向量”,克服了视觉语言模型在GUI场景规划中的不足,从而提高了任务执行的有效性和效率。

ID: 2503.03743v1来源: arxiv发布时间: 2025-03-07

Rethinking Deep Clustering Paradigms: Self-Supervision Is All You Need

作者: Amal Shaheena, Nairouz Mrabahb, Riadh Ksantinia, Abdulla Alqaddoumia

研究方向: 深度聚类

本文针对现有深度聚类方法中存在的特征随机性、特征漂移和特征扭曲等问题,提出了一种新的深度聚类范式,该范式完全摒弃了伪监督,仅依赖两层自我监督训练。通过在实例级自我监督之后进行邻近级自我监督,实现了从实例级到邻近级自我监督的平滑过渡,从而提高了聚类性能。

ID: 2503.03733v1来源: arxiv发布时间: 2025-03-07

Deep Causal Behavioral Policy Learning: Applications to Healthcare

作者: Jonas Knecht, Anna Zink, Jonathan Kolstad, Maya Petersen

研究方向: 医疗保健领域的深度因果行为政策学习

该研究提出了一种基于深度学习的医疗保健领域行为政策学习方法,旨在通过分析临床行为路径,识别因果关系,并优化患者治疗方案。

ID: 2503.03724v1来源: arxiv发布时间: 2025-03-07

FANformer: Improving Large Language Models Through Effective Periodicity Modeling

作者: Yihong Dong, Ge Li, Xue Jiang, Yongding Tao, Kechi Zhang, Hao Zhu, Huanyu Liu, Jiazheng Ding, Jia Li, Jinliang Deng, Hong Mei

研究方向: 大型语言模型(LLMs)

本文提出了一种名为FANformer的新型LLM架构,通过将傅里叶分析网络(FAN)集成到Transformer的注意力机制中,以实现高效的周期性建模,从而提高LLMs的学习效率和性能。

ID: 2502.21309v1来源: arxiv发布时间: 2025-03-03

Clustering Context in Off-Policy Evaluation

作者: Daniel Guzman-Olivares, Philipp Schmidt, Jacek Golebiowski, Artur Bekasov

研究方向: 机器学习,特别是上下文无关评估(OPE)和聚类分析

本文研究了在上下文无关评估中,通过聚类相似上下文来提高估计准确性的方法。作者提出了CHIPS(Context-Huddling Inverse Propensity Score)估计器,该估计器通过在聚类中共享信息来减轻现有方法在日志政策与评估政策差异较大时的性能下降问题。

ID: 2502.21304v1来源: arxiv发布时间: 2025-03-03

Contextualizing biological perturbation experiments through language

作者: Menghua Wu, Russell Littman, Jacob Levine, Lin Qiu, Tommaso Biancalani, David Richmond, Jan-Christian Huetter

研究方向: 生物信息学,机器学习,生物实验分析

该研究提出了一种名为PERTURBQA的基准,用于评估机器学习模型在分析生物实验数据方面的能力。该基准通过问答的形式,要求模型对生物实验结果进行推理和分析,例如预测基因表达的变化和基因集富集等。

ID: 2502.21290v1来源: arxiv发布时间: 2025-03-03

L-Lipschitz Gershgorin ResNet Network

作者: Marius F. R. Juston, William R. Norris, Dustin Nottage, Ahmet Soylemezoglu

研究方向: 深度学习,神经网络,Lipschitz连续性,线性矩阵不等式(LMI),Gershgorin圆定理

本文提出了一种基于线性矩阵不等式(LMI)框架的L-Lipschitz深度残差网络(ResNet)。通过使用Gershgorin圆定理来近似特征值位置,确保了LMI的负半定定性,从而保证了网络的Lipschitz连续性。然而,这种方法可能会导致过度约束系统,抑制非线性动态,从而限制了网络的表示能力。

ID: 2502.21279v1来源: arxiv发布时间: 2025-03-03

BAnG: Bidirectional Anchored Generation for Conditional RNA Design

作者: Roman Klypa, Alberto Bietti, Sergei Grudinin

研究方向: 生物信息学,RNA设计,蛋白质-RNA相互作用

本文提出了一种名为RNA-BAnG的深度学习模型,用于生成与特定蛋白质相互作用的RNA序列。该模型结合了双向锚定生成(BAnG)方法和Transformer架构,旨在提高RNA序列生成的效率和准确性。

ID: 2502.21274v1来源: arxiv发布时间: 2025-03-03

ReaLJam: Real-Time Human-AI Music Jamming with Reinforcement Learning-Tuned Transformers

作者: Alexander Scarlatos, Yusong Wu, Ian Simon, Adam Roberts, Tim Cooijmans, Natasha Jaques, Cassie Tarakajian, Cheng-Zhi Anna Huang

研究方向: 人工智能音乐生成与交互

该研究提出了一种名为ReaLJam的实时人机音乐即兴系统,通过强化学习训练的Transformer模型,实现人与AI在音乐即兴创作中的实时互动。

ID: 2502.21267v1来源: arxiv发布时间: 2025-03-03