The Value of Goal Commitment in Planning

作者: Alberto Pozanco, Marianela Morales, Daniel Borrajo, Manuela Veloso

研究方向: 自动化规划领域

该论文研究了在规划任务中引入目标承诺的概念,并提出了通过添加承诺动作来扩展规划任务的方法,以增强规划器在搜索过程中的目标承诺。

ID: 2503.09545v1来源: arxiv发布时间: 2025-03-14

Differentially Private Equilibrium Finding in Polymatrix Games

作者: Mingyang Liu, Gabriele Farina, Asuman Ozdaglar

研究方向: 博弈论与差分隐私

本文研究了在差分隐私约束下,如何寻找多矩阵博弈中的均衡点。文章首先分析了在两种设置下,无法同时实现高精度和渐近零差分隐私预算的情况:一是寻求以欧几里得距离来衡量均衡集的近似保证,二是攻击者可以访问所有通信渠道。然后,假设攻击者可以访问有限数量的通信渠道,提出了一种新的分布式算法,该算法在玩家数量增加时,能够同时达到渐近零纳什差距(在预期效用中,也称为可利用性和隐私预算)。

ID: 2503.09538v1来源: arxiv发布时间: 2025-03-13

GenHPE: Generative Counterfactuals for 3D Human Pose Estimation with Radio Frequency Signals

作者: Shuokang Huang, Julie A. McCann

研究方向: 3D人体姿态估计与无线射频信号

该研究提出了一种名为GenHPE的3D人体姿态估计方法,利用无线射频信号进行人体姿态估计。该方法通过生成反事实无线射频信号来消除特定领域的混淆因素,并训练生成模型,学习人体部位和混淆因素如何影响无线射频信号。通过这种方式,GenHPE能够泛化到新的主体和环境,从而实现跨领域3D人体姿态估计。

ID: 2503.09537v1来源: arxiv发布时间: 2025-03-14

CombatVLA: An Efficient Vision-Language-Action Model for Combat Tasks in 3D Action Role-Playing Games

作者: Peng Chen, Pi Bu, Yingyao Wang, Xinyi Wang, Ziming Wang, Jie Guo, Yingxiu Zhao, Qi Zhu, Jun Song, Siran Yang, Jiamang Wang, Bo Zheng

研究方向: 视觉-语言-动作(VLA)模型在3D动作角色扮演游戏(ARPG)中的应用

本文提出了一种名为CombatVLA的VLA模型,专门用于优化3D ARPG中的战斗任务。该模型通过视频动作对数据进行训练,并采用行动思考(AoT)序列进行数据格式化。CombatVLA能够与动作执行框架无缝集成,并通过截断AoT策略实现高效推理。

ID: 2503.09527v1来源: arxiv发布时间: 2025-03-14

PairVDN - Pair-wise Decomposed Value Functions

作者: Zak Buzzard

研究方向: 多智能体强化学习(MARL)与深度Q学习(DQN)

本文研究了将深度Q学习(DQN)扩展到合作多智能体环境中的挑战,并提出了PairVDN,一种将值函数分解为成对函数的新方法,以改善表达性。

ID: 2503.09521v1来源: arxiv发布时间: 2025-03-14

Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

作者: Bowen Jin, Hansi Zeng, Zhenrui Yue, Dong Wang, Hamed Zamani, Jiawei Han

研究方向: 自然语言处理,强化学习,大型语言模型

本文提出了一种名为SEARCH-R1的新型强化学习框架,旨在增强大型语言模型(LLM)的推理和检索能力。该框架允许LLM在推理过程中自主生成搜索查询,并利用实时检索结果进行推理,从而提高LLM在复杂推理任务中的表现。

ID: 2503.09516v1来源: arxiv发布时间: 2025-03-14

RESTRAIN: Reinforcement Learning-Based Secure Framework for Trigger-Action IoT Environment

作者: Md Morshed Alam, Lokesh Chandra Das, Sandip Roy, Sachin Shetty, Weichao Wang

研究方向: 物联网安全,强化学习,触发-动作平台

该研究提出了一种名为RESTRAIN的基于强化学习的在线防御系统,用于保护具有触发-动作能力的物联网环境,防止远程注入攻击。

ID: 2503.09513v1来源: arxiv发布时间: 2025-03-14

Double-Stage Feature-Level Clustering-Based Mixture of Experts Framework

作者: Bakary Badjie, José Cecílio, António Casimiro

研究方向: 机器学习,图像分类,深度学习

该论文提出了一种名为 Double-stage Feature-level Clustering and Pseudo-labeling-based Mixture of Experts (DFCP-MoE) 的框架,用于图像分类任务。该框架旨在通过将输入空间聚类和使用伪标签来改进混合专家(MoE)模型,从而提高分类性能和效率。

ID: 2503.09504v1来源: arxiv发布时间: 2025-03-14

ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning

作者: Ziyu Wan, Yunxiang Li, Yan Song, Hanjing Wang, Linyi Yang, Mark Schmidt, Jun Wang, Weinan Zhang, Shuyue Hu, Ying Wen

研究方向: 大型语言模型(LLM)的推理与元思考

该研究提出了一种名为ReMA的框架,通过多智能体强化学习(MARL)来促进LLM的元思考能力。该框架将推理过程分解为两个层次:高级元思考智能体负责生成策略和计划,而低级推理智能体则负责执行详细的推理步骤。

ID: 2503.09501v1来源: arxiv发布时间: 2025-03-14

MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions

作者: Zhe Xu, Daoyuan Chen, Zhenqing Ling, Yaliang Li, Ying Shen

研究方向: 视觉语言模型(VLM)的推理能力提升

MINDGYM是一种通过合成自挑战问题来增强视觉语言模型(VLM)推理能力的框架。该框架通过三个阶段实现:种子单跳问题合成、挑战多跳问题合成和思维诱导课程微调,旨在提高数据效率、计算效率和模型的泛化能力。

ID: 2503.09499v1来源: arxiv发布时间: 2025-03-14