L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning

作者: Pranjal Aggarwal, Sean Welleck

研究方向: 自然语言处理与机器学习

该研究旨在通过控制推理语言模型(LLM)的推理长度,实现更高效的计算和更精确的性能。研究者提出了Length Controlled Policy Optimization(LCPO)方法,通过强化学习训练模型,使其在满足用户指定长度约束的同时,优化推理性能。

ID: 2503.04697v1来源: arxiv发布时间: 2025-03-07

Matrix Factorization for Inferring Associations and Missing Links

作者: Ryan Barron, Maksim E. Eren, Duc P. Truong, Cynthia Matuszek, James Wendelberger, Mary F. Dorn, Boian Alexandrov

研究方向: 网络分析、链接预测、矩阵分解

本文提出了一种基于矩阵分解的链接预测方法,旨在通过分析现有网络中的模式和关系来识别网络中未观察到的潜在连接。该方法结合了自动模型确定和不确定性量化,以提高预测的准确性和可靠性。

ID: 2503.04680v1来源: arxiv发布时间: 2025-03-07

Multi-Agent Inverse Q-Learning from Demonstrations

作者: Nathaniel Haynam, Adam Khoja, Dhruv Kumar, Vivek Myers, Erdem Bıyık

研究方向: 多智能体强化学习与逆强化学习

本文提出了一种名为MAMQL(Multi-Agent Marginal Q-Learning from Demonstrations)的新型多智能体逆强化学习算法,旨在解决在多智能体通用求和游戏中学习奖励函数的复杂性。该算法通过从专家演示中学习,为每个智能体联合学习奖励函数和政策。

ID: 2503.04679v1来源: arxiv发布时间: 2025-03-09

Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment

作者: Wen Yang, Junhong Wu, Chen Wang, Chengqing Zong, Jiajun Zhang

研究方向: 自然语言处理,多语言模型偏好对齐

本文提出了一种名为“隐式跨语言奖励”的新方法,旨在通过利用现有英语模型中嵌入的偏好知识,实现高效的多语言模型偏好对齐。该方法通过迭代训练,将英语模型中学习到的偏好通过隐式奖励转移到其他语言中,从而减少对大量多语言偏好数据的依赖。

ID: 2503.04647v1来源: arxiv发布时间: 2025-03-07

Simulating the Real World: A Unified Survey of Multimodal Generative Models

作者: Yuqi Hu, Longguang Wang, Xian Liu, Ling-Hao Chen, Yuwei Guo, Yukai Shi, Ce Liu, Anyi Rao, Zeyu Wang, Hui Xiong

研究方向: 多模态生成模型与真实世界模拟

本文综述了多模态生成模型在真实世界模拟中的应用,涵盖了从二维图像生成到视频、三维和四维生成的整个维度增长过程。作者从数据维度增长的角度,系统地分析了不同模态生成模型的方法、数据集、评估指标和未来研究方向。

ID: 2503.04641v1来源: arxiv发布时间: 2025-03-07

Mark Your LLM: Detecting the Misuse of Open-Source Large Language Models via Watermarking

作者: Yijie Xu, Aiwei Liu, Xuming Hu, Lijie Wen, Hui Xiong

研究方向: 开源大型语言模型(LLM)的水印技术与应用

该研究针对开源LLM的滥用问题,提出了基于后门水印和推理时水印蒸馏的方法,旨在检测LLM的知识产权侵权和生成文本滥用行为。

ID: 2503.04636v1来源: arxiv发布时间: 2025-03-08

IDInit: A Universal and Stable Initialization Method for Neural Network Training

作者: Yu Pan, Chaozheng Wang, Zekai Wu, Qifan Wang, Min Zhang, Zenglin Xu

研究方向: 神经网络初始化与训练

本文研究了神经网络训练中的初始化方法,提出了一种名为IDInit的全新初始化方法,旨在提高神经网络的收敛速度和稳定性。

ID: 2503.04626v1来源: arxiv发布时间: 2025-03-07

The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

作者: Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang

研究方向: 计算机视觉与人工智能

本文提出了一种名为LanDiff的混合框架,用于文本到视频(T2V)生成。该框架结合了自回归语言模型和扩散模型的优势,通过粗到细的生成方法,解决了语言模型在视觉质量和错误累积方面的局限性,以及扩散模型在语义理解和因果建模方面的不足。

ID: 2503.04606v1来源: arxiv发布时间: 2025-03-08

HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization

作者: Zhijian Zhuo, Yutao Zeng, Ya Wang, Sijun Zhang, Jian Yang, Xiaoqing Li, Xun Zhou, Jinwen Ma

研究方向: 大型语言模型(LLMs)训练中的深度学习与自然语言处理

本文研究了在大型语言模型(LLMs)训练过程中,如何通过改进Transformer模型的规范化策略来提高训练稳定性和模型性能。具体来说,作者提出了HybridNorm,这是一种结合了Pre-Norm和Post-Norm优点的混合规范化方法,旨在解决深度Transformer模型训练中的梯度流动稳定性和内部协变量偏移问题。

ID: 2503.04598v1来源: arxiv发布时间: 2025-03-07

The Next Frontier of LLM Applications: Open Ecosystems and Hardware Synergy

作者: Xinyi Hou, Yanjie Zhao, Haoyu Wang

研究方向: 大型语言模型(LLM)应用生态系统与硬件协同

本文探讨了大型语言模型(LLM)应用的未来发展,提出了一个基于软件工程原则的三层解耦架构,旨在解决现有LLM应用中的平台孤岛、硬件集成碎片化和缺乏标准化接口等问题。该架构通过分离应用逻辑、通信协议和硬件执行,提高了模块化、效率和跨平台兼容性。

ID: 2503.04596v1来源: arxiv发布时间: 2025-03-07