Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

作者: Hao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li

研究方向: 大型语言模型(LLM)训练与推理

本文提出了一种名为Agentic Reward Modeling的奖励系统,旨在提高大型语言模型(LLM)的可靠性和准确性。该系统结合了人类偏好和可验证的正确性信号,以提供更可靠的奖励,并用于训练LLM。

ID: 2502.19328v1来源: arxiv发布时间: 2025-02-27

Partition Tree Weighting for Non-Stationary Stochastic Bandits

作者: Joel Veness, Marcus Hutter, Andras Gyorgy, Jordi Grau-Moya

研究方向: 非平稳随机伯努利赌徒问题与通用源编码

该论文提出了一种名为ActivePTW的算法,用于解决非平稳随机伯努利赌徒问题。该算法基于通用源编码原理,通过将问题转化为编码问题,从而实现对环境的建模和策略的制定。

ID: 2502.19325v1来源: arxiv发布时间: 2025-02-27

Shh, don't say that! Domain Certification in LLMs

作者: Cornelius Emde, Alasdair Paren, Preetham Arvind, Maxime Kayser, Tom Rainforth, Thomas Lukasiewicz, Bernard Ghanem, Philip H. S. Torr, Adel Bibi

研究方向: 自然语言处理,大语言模型(LLM)的领域认证

该研究旨在解决大语言模型在特定领域应用中可能出现的越界行为问题。通过引入领域认证的概念,提出了一种名为VALID的算法,用于限制LLM在对抗攻击下的越界行为,并确保模型在特定领域内生成输出。

ID: 2502.19320v1来源: arxiv发布时间: 2025-02-27

FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users

作者: Anikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn

研究方向: 语言模型个性化

该研究提出了一种名为FSPO(Few-Shot Preference Optimization)的新框架,旨在通过元学习技术,使语言模型能够根据少量用户偏好数据快速适应用户,从而实现有效的个性化。FSPO利用合成偏好数据集,并通过元学习优化模型,使其能够为用户提供更加个性化的回答。

ID: 2502.19312v1来源: arxiv发布时间: 2025-02-27

Faithful Logic Embeddings in HOL -- A recipe to have it all: deep and shallow, automated and interactive, heavy and light, proofs and counterexamples, meta and object level

作者: Christoph Benzmüller

研究方向: 逻辑嵌入与自动推理

本文研究了在经典高阶逻辑(HOL)中实现不同形式的深层次和浅层次逻辑嵌入,并展示了如何通过这些嵌入实现灵活的交互式和自动化定理证明、反例查找,以及元层次和对象层次上的忠实性证明。

ID: 2502.19311v1来源: arxiv发布时间: 2025-02-27

WOFOSTGym: A Crop Simulator for Learning Annual and Perennial Crop Management Strategies

作者: William Solow, Sandhya Saisubramanian, Alan Fern

研究方向: 农业管理与精准农业

WOFOSTGym是一个基于WOFOST作物生长模型的作物模拟环境,旨在训练强化学习(RL)智能体以优化年度和多年生作物的农业管理决策。该研究旨在解决现有作物模拟器在多年生作物和多农场环境中的局限性,并通过支持多种作物和土壤类型,使智能体能够在多作物、多农场和多年度环境中学习多样化的农业管理策略。

ID: 2502.19308v2来源: arxiv发布时间: 2025-02-28

Anomaly Detection in Complex Dynamical Systems: A Systematic Framework Using Embedding Theory and Physics-Inspired Consistency

作者: Michael Somma, Thomas Gallien, Branka Stojanovic

研究方向: 复杂动态系统中的异常检测

本文提出了一种基于嵌入理论和物理一致性原理的系统理论方法,用于复杂动态系统中的异常检测。该方法结合了经典嵌入理论和物理一致性原则,通过引入状态导数对作为嵌入策略,并开发了一种时间微分一致性自动编码器(TDC-AE)来捕获系统演化,从而实现异常检测。

ID: 2502.19307v1来源: arxiv发布时间: 2025-02-27

Corporate Fraud Detection in Rich-yet-Noisy Financial Graph

作者: Shiqi Wang, Zhibo Zhang, Libing Fang, Cam-Tu Nguyen, Wenzhon Li

研究方向: 公司欺诈检测

本文研究了公司欺诈检测问题,针对信息过载和隐藏欺诈这两个主要挑战,提出了一种名为KeGCNR的知识增强GCN模型。该模型利用知识图嵌入来缓解信息过载问题,并采用鲁棒的两阶段学习来处理隐藏欺诈问题。

ID: 2502.19305v1来源: arxiv发布时间: 2025-02-27

Combining Planning and Reinforcement Learning for Solving Relational Multiagent Domains

作者: Nikhilesh Prabhakar, Ranveer Singh, Harsha Kokel, Sriraam Natarajan, Prasad Tadepalli

研究方向: 多智能体强化学习(MARL)与关系强化学习(RRL)

该研究提出了一种名为 MaRePReL 的多智能体关系规划与强化学习框架,旨在解决关系多智能体领域的挑战。该框架结合了关系规划和强化学习,通过分解任务、抽象状态空间和使用深度强化学习来提高样本效率和促进任务迁移和泛化。

ID: 2502.19297v1来源: arxiv发布时间: 2025-02-27

Complex LLM Planning via Automated Heuristics Discovery

作者: Hongyi Ling, Shubham Parashar, Sambhav Khurana, Blake Olson, Anwesha Basu, Gaurangi Sinha, Zhengzhong Tu, James Caverlee, Shuiwang Ji

研究方向: 人工智能,大型语言模型,复杂规划任务

本文提出了一种名为AutoHD的新方法,用于增强大型语言模型(LLM)在复杂规划任务中的能力。该方法通过让LLM生成启发式函数来引导推理时搜索,从而实现中间状态的准确评估。这些启发式函数通过启发式进化过程进一步优化,以提高其鲁棒性和有效性。AutoHD无需额外的模型训练或微调,并提供了对推理过程的可解释性。

ID: 2502.19295v1来源: arxiv发布时间: 2025-02-27