EgoNormia: Benchmarking Physical Social Norm Understanding

作者: MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang

研究方向: 视觉语言模型(VLM)的物理社会规范理解

EGONORMIA是一个旨在评估VLM对物理社会规范(PSN)理解能力的基准和数据集。该研究通过设计一个包含多种社会和物理背景的互动视频片段的数据库,并使用多选题格式来评估模型对规范行为的理解。研究旨在解决VLM在理解物理世界中的规范时存在的挑战,并探索如何通过EGONORMIA来增强VLM的规范推理能力。

ID: 2502.20490v1来源: arxiv发布时间: 2025-03-03

R-ParVI: Particle-based variational inference through lens of rewards

作者: Yongchao Huang

研究方向: 粒子变分推断(ParVI)和强化学习(RL)在概率模型采样中的应用

本文提出了一种名为R-ParVI的新颖的粒子变分推断方法,该方法结合了强化学习的奖励机制,用于从部分已知密度(例如,直到一个常数)中进行采样。R-ParVI将采样问题表述为受奖励驱动的粒子流,通过结合目标密度的评估和奖励机制来指导粒子在参数空间中的移动。

ID: 2502.20482v1来源: arxiv发布时间: 2025-03-03

Promote, Suppress, Iterate: How Language Models Answer One-to-Many Factual Queries

作者: Tianyi Lorena Yan, Robin Jia

研究方向: 自然语言处理、语言模型、可解释性

研究语言模型如何回答一对多的事实性查询(例如,列出一个国家的城市),并分析了模型在知识召回和避免重复回答这两个子任务中的内部实现和整合机制。

ID: 2502.20475v1来源: arxiv发布时间: 2025-03-03

Large Language Model Strategic Reasoning Evaluation through Behavioral Game Theory

作者: Jingru Jia, Zehua Yuan, Junhao Pan, Paul E. McNamara, Deming Chen

研究方向: 人工智能,大型语言模型,博弈论,行为经济学

该研究旨在评估大型语言模型(LLMs)在战略推理方面的能力,通过行为博弈论框架,分析LLMs在多代理环境中的决策过程,并探究其决策背后的机制。

ID: 2502.20432v1来源: arxiv发布时间: 2025-03-03

Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids

作者: Toru Lin, Kartik Sachdev, Linxi Fan, Jitendra Malik, Yuke Zhu

研究方向: 机器人视觉与触觉操作,强化学习

该论文研究了如何将强化学习应用于人形机器人进行基于视觉的灵巧操作,提出了从模拟到现实的学习方法,并通过实验验证了方法的有效性。

ID: 2502.20396v1来源: arxiv发布时间: 2025-02-28

Walking the Web of Concept-Class Relationships in Incrementally Trained Interpretable Models

作者: Susmit Agrawal, Deepika Vemuri, Sri Siddarth Chakaravarthy P, Vineeth N. Balasubramanian

研究方向: 可解释的增量学习

本文研究了在增量学习场景下,如何利用概念来构建可解释的神经网络模型。该研究重点在于如何在新的学习体验中引入新的概念,同时保留和扩展之前学到的概念及其与类别的关联。

ID: 2502.20393v1来源: arxiv发布时间: 2025-02-28

Physics-Driven Data Generation for Contact-Rich Manipulation via Trajectory Optimization

作者: Lujie Yang, H. J. Terry Suh, Tong Zhao, Bernhard Paus Graesdal, Tarik Kelestemur, Jiuguang Wang, Tao Pang, Russ Tedrake

研究方向: 机器人学,数据生成,轨迹优化

本文提出了一种结合基于物理的模拟、人类演示和基于模型的规划的低成本数据生成流程,用于生成大规模、高质量的接触丰富机器人操作任务数据集。该流程从少量在虚拟现实环境中收集的具有身体灵活性的人类演示开始,使用基于优化的运动学重定位和轨迹优化来对这些演示进行细化,以适应各种机器人身体和物理参数。

ID: 2502.20382v1来源: arxiv发布时间: 2025-02-28

Multi-Turn Code Generation Through Single-Step Rewards

作者: Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, Alexander M Rush, Wenting Zhao, Sanjiban Choudhury

研究方向: 代码生成与机器学习

该论文提出了一种名为 µCODE 的方法,用于通过单步奖励实现多轮代码生成。该方法利用单步可恢复马尔可夫决策过程(MDP)的特性,通过收集执行反馈来迭代训练生成器和验证器,从而实现代码的改进。

ID: 2502.20380v1来源: arxiv发布时间: 2025-02-28

Multi-Agent Verification: Scaling Test-Time Compute with Multiple Verifiers

作者: Shalev Lifshitz, Sheila A. McIlraith, Yilun Du

研究方向: 多智能体验证:测试时计算扩展

该研究提出了一种名为多智能体验证(MAV)的测试时计算范式,通过结合多个验证器来提高语言模型(LLM)的性能。研究者们提出了使用方面验证器(AVs)作为验证器的一种可能选择,这些验证器是现成的LLM,被提示来验证输出的不同方面。他们还引入了BoN-MAV,这是一种简单的多智能体验证算法,它结合了最佳-of-n采样和多个验证器。

ID: 2502.20379v1来源: arxiv发布时间: 2025-03-01

PhantomWiki: On-Demand Datasets for Reasoning and Retrieval Evaluation

作者: Albert Gong, Kamilė Stankevičiūtė, Chao Wan, Anmol Kabra, Raphael Thesmar, Johann Lee, Julius Klenke, Carla P. Gomes, Kilian Q. Weinberger

研究方向: 自然语言处理、语言模型评估

PhantomWiki是一种用于评估大型语言模型(LLM)推理和检索能力的基准框架。它通过生成虚构的宇宙和事实,构建文档语料库,并生成问题-答案对,从而提供一种不依赖于特定数据集的评估方法。

ID: 2502.20377v1来源: arxiv发布时间: 2025-02-28