Disambiguate First Parse Later: Generating Interpretations for Ambiguity Resolution in Semantic Parsing

作者: Irina Saparina, Mirella Lapata

研究方向: 自然语言处理和语义解析

本文提出了一种处理自然语言接口中歧义和欠指定问题的方法,特别适用于文本到SQL语义解析等任务。该方法首先使用自然语言解释来消除歧义,然后将这些解释映射到逻辑形式(例如SQL查询)。该方法利用了大型语言模型(LLM)在处理歧义时的固有偏差,并通过训练一个专门的填充模型来识别和生成缺失的解释。

ID: 2502.18448v1来源: arxiv发布时间: 2025-02-27

MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning

作者: Chanwoo Park, Seungju Han, Xingzhi Guo, Asuman Ozdaglar, Kaiqing Zhang, Joo-Kyung Kim

研究方向: 多智能体强化学习与大型语言模型协同

本文提出了一种名为MAPoRL(多智能体后协同训练)的新范式,旨在通过强化学习促进多个大型语言模型(LLMs)之间的协作。该范式通过多智能体强化学习(MARL)实现多个LLMs的协同训练,以提升LLMs在协作任务中的性能。

ID: 2502.18439v1来源: arxiv发布时间: 2025-02-27

ToMCAT: Theory-of-Mind for Cooperative Agents in Teams via Multiagent Diffusion Policies

作者: Pedro Sequeira, Vidyasagar Sadhu, Melinda Gervasio

研究方向: 多智能体学习、元学习、心智理论、扩散策略、自适应智能体、团队建模

本文提出了一种名为ToMCAT的新框架,用于生成心智理论(ToM)条件轨迹。该框架结合了元学习机制和多元智能体去噪扩散模型,以实现智能体及其队友的规划,并基于智能体的目标和队友的特征进行条件生成。实验在模拟烹饪领域进行,结果表明动态重新规划机制在减少资源使用的同时,不会牺牲团队性能。

ID: 2502.18438v1来源: arxiv发布时间: 2025-02-27

TextGames: Learning to Self-Play Text-Based Puzzle Games via Language Model Reasoning

作者: Frederikus Hudi, Genta Indra Winata, Ruochen Zhang, Alham Fikri Aji

研究方向: 大型语言模型(LLMs)的推理能力评估

TEXTGAMES 是一个针对 LLMs 的推理能力评估基准,通过一系列基于文本的逻辑谜题游戏来测试 LLMs 在模式识别、空间意识、算术和逻辑推理方面的能力。研究探讨了 LLMs 在单轮和多轮推理中的表现,以及它们利用反馈进行自我反思的能力。

ID: 2502.18431v1来源: arxiv发布时间: 2025-02-27

PyEvalAI: AI-assisted evaluation of Jupyter Notebooks for immediate personalized feedback

作者: Nils Wandel, David Stotko, Alexander Schier, Reinhard Klein

研究方向: 人工智能在教育领域的应用,特别是AI辅助教学和评估系统

本文介绍了一种名为PyEvalAI的AI辅助评估系统,该系统旨在为STEM课程中的学生提供即时个性化的反馈,并减轻教师的工作负担。PyEvalAI通过结合单元测试和本地语言模型自动评分Jupyter笔记本,同时确保数据隐私。

ID: 2502.18425v1来源: arxiv发布时间: 2025-02-27

Comparative Analysis of MDL-VAE vs. Standard VAE on 202 Years of Gynecological Data

作者: Paula Santos

研究方向: 医学数据建模与分析

本文研究了使用增强最小描述长度(MDL)正则化的变分自编码器(VAE)与标准自编码器在重建高维妇科数据方面的比较。研究主要关注如何利用MDL原理提高数据重建和泛化能力,以改善医疗保健数据建模和分析。

ID: 2502.18412v1来源: arxiv发布时间: 2025-02-27

TSKANMixer: Kolmogorov-Arnold Networks with MLP-Mixer Model for Time Series Forecasting

作者: Young-Chae Hong, Bei Xiao, Yangho Chen

研究方向: 时间序列预测

本文研究了Kolmogorov-Arnold Networks (KANs) 在时间序列预测中的应用,通过将KAN层引入Time-Series Mixer (TSMixer) 架构,提出了TSKANMixer模型,并对其性能进行了评估。

ID: 2502.18410v1来源: arxiv发布时间: 2025-02-27

AgentRM: Enhancing Agent Generalization with Reward Modeling

作者: Yu Xia, Jingru Fan, Weize Chen, Siyu Yan, Xin Cong, Zhong Zhang, Yaxi Lu, Yankai Lin, Zhiyuan Liu, Maosong Sun

研究方向: 语言模型代理(LLM-based Agent)的泛化和测试时自我改进

本文提出了一种名为AgentRM的通用奖励模型,旨在通过测试时搜索来增强语言代理的性能。该模型通过构建奖励模型来指导策略模型,从而在未见过的任务上提高泛化能力。

ID: 2502.18407v1来源: arxiv发布时间: 2025-02-27

The Gradient of Algebraic Model Counting

作者: Jaron Maene, Luc De Raedt

研究方向: 统计关系学习、神经符号人工智能、代数模型计数、梯度计算、优化算法

本文研究了代数模型计数(Algebraic Model Counting,AMC)在统计关系学习和神经符号人工智能中的应用,将AMC的半群视角扩展到学习领域,提出了一种通用的梯度计算方法,并探讨了不同半群在优化算法中的应用。

ID: 2502.18406v1来源: arxiv发布时间: 2025-02-27

How Far are LLMs from Real Search? A Comprehensive Study on Efficiency, Completeness, and Inherent Capabilities

作者: Minhua Lin, Hui Liu, Xianfeng Tang, Jingying Zeng, Zhenwei Dai, Chen Luo, Zheng Li, Xiang Zhang, Qi He, Suhang Wang

研究方向: 人工智能,自然语言处理,搜索算法

本文研究了如何将学习与搜索相结合,以提高大型语言模型(LLMs)在解决复杂问题时的效率和准确性。作者提出了SEAL和SEAL-C框架,通过将LLMs的推理能力与搜索策略相结合,实现了高效且完整的搜索过程。

ID: 2502.18387v2来源: arxiv发布时间: 2025-02-27