Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison

作者: Aiswarya Baby, Tintu Thankom Koshy

研究方向: 视觉问答(Visual Question Answering,VQA)

本文深入探讨了视觉问答领域中的先进技术,对比分析了五种高级VQA模型:ABC-CNN、KICNLE、掩码视觉和语言模型、BLIP-2和OFA,它们各自采用不同的方法来解决VQA中的挑战。

ID: 2502.14827v1来源: arxiv发布时间: 2025-02-24

Optimizing Model Selection for Compound AI Systems

作者: Lingjiao Chen, Jared Quincy Davis, Boris Hanin, Peter Bailis, Matei Zaharia, James Zou, Ion Stoica

研究方向: 人工智能系统优化与模型选择

本文研究了如何为复合人工智能系统中的每个模块选择最佳的LLM(大型语言模型),以提高整体性能。作者提出了一种名为LLMSelector的框架,该框架利用两个关键经验洞察:1)端到端性能通常是每个模块性能的增函数;2)每个模块的性能可以通过LLM进行准确估计。

ID: 2502.14815v1来源: arxiv发布时间: 2025-02-24

VB-Com: Learning Vision-Blind Composite Humanoid Locomotion Against Deficient Perception

作者: Junli Ren, Tao Huang, Huayi Wang, Zirui Wang, Qingwei Ben, Jiangmiao Pang, Ping Luo

研究方向: 机器人运动控制与感知

该研究提出了一种名为VB-Com的复合人形机器人运动控制框架,该框架结合了视觉政策和盲政策的优势,以增强人形机器人在动态、无结构环境中的运动性能。VB-Com能够根据感知缺陷动态切换视觉和盲政策,使机器人在复杂地形中更有效地导航。

ID: 2502.14814v1来源: arxiv发布时间: 2025-02-24

Planning, scheduling, and execution on the Moon: the CADRE technology demonstration mission

作者: Gregg Rabideau, Joseph Russino, Andrew Branch, Nihal Dhamani, Tiago Stegun Vaquero, Steve Chien, Jean-Pierre de la Croix, Federico Rossi

研究方向: 太空探索与机器人技术

本文介绍了NASA的CADRE任务,旨在通过多机器人系统在月球表面进行自主探索。任务包括使用三个移动机器人和一个基地站,收集月球表面的3D重建数据和地下探测数据。文章重点介绍了CADRE任务中的自主规划、调度和执行(PS&E)系统,该系统负责协调机器人活动,并确保每个机器人的热和电力资源在规定范围内。

ID: 2502.14803v1来源: arxiv发布时间: 2025-02-24

Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration

作者: Pengxiang Ding, Jianfei Ma, Xinyang Tong, Binghong Zou, Xinxin Luo, Yiguo Fan, Ting Wang, Hongchao Lu, Panzhong Mo, Jinxin Liu, Yuefan Wang, Huaicheng Zhou, Wenshuo Feng, Jiacheng Liu, Siteng Huang, Donglin Wang

研究方向: 人形机器人控制与视觉融合

本文提出了一种名为Humanoid-VLA的框架,旨在解决当前人形机器人控制框架的局限性,例如主要依赖反应机制和数据稀缺导致的缺乏自主交互能力。该框架通过结合语言理解、自视角场景感知和运动控制,实现了通用人形机器人控制。

ID: 2502.14795v2来源: arxiv发布时间: 2025-02-24

Multi-Agent Coordination across Diverse Applications: A Survey

作者: Lijun Sun, Yijun Yang, Qiqi Duan, Yuhui Shi, Chao Lyu, Yu-Cheng Chang, Chin-Teng Lin, Yang Shen

研究方向: 多智能体系统(MAS)的协调研究

本文对多智能体系统(MAS)的协调研究进行了全面的概述,分析了MAS在各个领域的应用,并提出了未来研究方向。

ID: 2502.14743v2来源: arxiv发布时间: 2025-02-24

Ranking Joint Policies in Dynamic Games using Evolutionary Dynamics

作者: Natalia Koliou, George Vouros

研究方向: 动态博弈与多智能体系统

该研究旨在通过将动态博弈转化为经验博弈,并应用进化动态方法(𝛼-Rank)来评估和排名策略配置,从而识别导致稳定行为的智能体联合策略。该方法通过模拟实验,分析策略配置的长期动态,并识别在长期互动中占主导地位的策略。

ID: 2502.14724v1来源: arxiv发布时间: 2025-02-24

Building reliable sim driving agents by scaling self-play

作者: Daphne Cornelisse, Aarav Pandya, Kevin Joseph, Joseph Suárez, Eugene Vinitsky

研究方向: 自动驾驶与仿真

该研究旨在通过扩展自我博弈来构建可靠的仿真驾驶代理,以提高自动驾驶系统开发和测试的可靠性。

ID: 2502.14706v1来源: arxiv发布时间: 2025-02-24

Multi-Class Imbalanced Learning with Support Vector Machines via Differential Evolution

作者: Zhong-Liang Zhang, Jie Yang, Jian-Ming Ru, Xiao-Xi Zhao, Xing-Gang Luo

研究方向: 机器学习,特别是支持向量机(SVM)和多类不平衡学习

提出了一种改进的支持向量机(i-SVM)模型,用于处理多类不平衡分类问题,并使用差分进化(DE)算法进行参数优化。该方法通过结合成本敏感和分离边修改技术,有效地解决了数据不平衡问题,并通过OVO分解策略将多类问题分解为多个二元子问题,同时使用DE算法优化每个类别的支持向量。

ID: 2502.14597v1来源: arxiv发布时间: 2025-02-24

Real-world Troublemaker: A Novel Track Testing Framework for Automated Driving Systems in Safety-critical Interaction Scenarios

作者: Xinrui Zhang, Lu Xiong, Peizhi Zhang, Junpeng Huang, Yining Ma

研究方向: 自动驾驶系统安全测试与评估

本文提出了一种名为Real-world Troublemaker的新型测试框架,用于在安全关键交互场景中对自动驾驶系统进行测试。该框架利用云控制技术生成对抗性目标运动轨迹,并与测试车辆进行智能交互,从而创建更真实和动态的测试环境。

ID: 2502.14574v1来源: arxiv发布时间: 2025-02-24