Talking Back -- human input and explanations to interactive AI systems

作者: Alan Dix, Tommaso Turchi, Ben Wilson, Anna Monreale, Matt Roach

研究方向: 人机交互与可解释人工智能

本文探讨了人类向人工智能系统提供解释的可能性,以及这种交互如何促进更丰富、协同的人机系统。研究内容包括人类输入到AI的各种形式,以及人类解释如何引导机器学习模型,使其自动判断和解释更接近人类概念。

ID: 2503.04343v1来源: arxiv发布时间: 2025-03-07

Solving Word-Sense Disambiguation and Word-Sense Induction with Dictionary Examples

作者: Tadej Škvorc, Marko Robnik-Šikonja

研究方向: 自然语言处理,少资源语言处理,词义消歧与词义诱导

本文提出了一种利用大型语言模型(LLM)扩展现有语言资源的方法,用于解决少资源语言中的词义消歧(WSD)和词义诱导(WSI)问题。通过使用LLM从字典示例中生成句子对,创建了一个词-上下文(WiC)任务的数据集,该任务可以用于训练分类模型以预测目标词在不同句子中的词义是否相同。该模型不仅可以用于WSD和WSI任务,还可以在斯洛文尼亚语等少资源语言中提高性能。

ID: 2503.04328v1来源: arxiv发布时间: 2025-03-07

Provable Robust Overfitting Mitigation in Wasserstein Distributionally Robust Optimization

作者: Shuang Liu, Yihan Wang, Yifan Zhu, Yibo Miao, Xiao-Shan Gao

研究方向: 机器学习,鲁棒优化,对抗攻击

本文提出了一种名为Statistically Robust WDRO (SR-WDRO)的新方法,旨在解决Wasserstein分布鲁棒优化(WDRO)在对抗攻击中的鲁棒过拟合问题。SR-WDRO通过结合Wasserstein距离和Kullback-Leibler散度来创建新的不确定性集,从而在保证模型泛化能力的同时,提升对抗攻击的鲁棒性。

ID: 2503.04315v1来源: arxiv发布时间: 2025-03-07

Malware Detection at the Edge with Lightweight LLMs: A Performance Evaluation

作者: Christian Rondanini, Barbara Carminati, Elena Ferrari, Antonio Gaudiano, Ashish Kundu

研究方向: 网络安全,边缘计算,机器学习

本研究针对资源受限的边缘计算环境中的恶意软件检测问题,提出了利用轻量级大型语言模型(LLMs)的解决方案。通过实验评估了不同轻量级LLMs的性能,并探讨了在边缘设备上部署LLMs的可行性和准确性。

ID: 2503.04302v1来源: arxiv发布时间: 2025-03-07

Mapping AI Benchmark Data to Quantitative Risk Estimates Through Expert Elicitation

作者: Malcolm Murray, Henry Papadatos, Otter Quarks, Pierre-François Gimenez, Simeon Campos

研究方向: 人工智能风险建模与量化风险评估

本文研究如何将现有的人工智能基准测试数据用于生成风险估计,以评估大型语言模型(LLM)带来的潜在风险。研究者通过专家访谈,利用Cybench基准测试的结果,将LLM的性能转化为概率估计,以评估LLM在网络安全场景中的风险。

ID: 2503.04299v1来源: arxiv发布时间: 2025-03-07

MathMistake Checker: A Comprehensive Demonstration for Step-by-Step Math Problem Mistake Finding by Prompt-Guided LLMs

作者: Tianyang Zhang, Zhuoxuan Jiang, Haotian Zhang, Lin Lin, Shaohua Zhang

研究方向: 教育技术,人工智能,数学教育

提出了一种名为MathMistake Checker的系统,用于自动化检测数学问题中的错误,特别是那些需要逐步验证答案的问题。该系统旨在通过两阶段过程提高评分效率,并从教学角度提升学习体验。

ID: 2503.04291v1来源: arxiv发布时间: 2025-03-07

How Do Hackathons Foster Creativity? Towards AI Collaborative Evaluation of Creativity at Scale

作者: Jeanette Falk, Yiyi Chen, Janet Rafner, Mike Zhang, Johannes Bjerva, Alexander Nolte

研究方向: 黑客马拉松与创造力研究,人工智能在创造力评估中的应用

本研究通过对193,353个黑客马拉松项目进行大规模数据分析,探索了黑客马拉松如何促进创造力,并探讨了如何利用大型语言模型(LLMs)来评估和增强创造力。

ID: 2503.04290v1来源: arxiv发布时间: 2025-03-07

Explainable AI in Time-Sensitive Scenarios: Prefetched Offline Explanation Model

作者: Fabio Michele Russo, Carlo Metta, Anna Monreale, Salvatore Rinzivillo, Fabio Pinelli

研究方向: 可解释人工智能(XAI)在时间敏感场景中的应用

提出了一种名为POEM的预取离线解释模型,用于在时间敏感场景中对图像数据进行模型无关的解释。

ID: 2503.04283v1来源: arxiv发布时间: 2025-03-07

Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models

作者: Niccolò Turcato, Matteo Iovino, Aris Synodinos, Alberto Dalla Libera, Ruggero Carli, Pietro Falco

研究方向: 机器人技术,强化学习,自然语言处理

本文提出了一种名为ARCHIE的自动强化学习流程,用于训练机器人进行复杂操作。该流程利用GPT-4从自然语言任务描述中直接生成奖励函数,用于在模拟环境中训练强化学习代理。这种方法减少了人工干预,并提高了训练效率。

ID: 2503.04280v2来源: arxiv发布时间: 2025-03-10

Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models

作者: Niccolò Turcato, Matteo Iovino, Aris Synodinos, Alberto Dalla Libera, Ruggero Carli, Pietro Falco

研究方向: 机器人操作与强化学习

该研究提出了一种名为ARCHIE的自动强化学习流程,利用GPT-4从自然语言任务描述中生成奖励函数,用于训练机器人操作任务中的强化学习代理。该方法通过将人类可读的文本描述转换为可部署的机器人技能,实现了一步到位的过程。

ID: 2503.04280v1来源: arxiv发布时间: 2025-03-07