Think Twice, Click Once: Enhancing GUI Grounding via Fast and Slow Systems

作者: Fei Tang, Yongliang Shen, Hang Zhang, Siqi Chen, Guiyang Hou, Wenqi Zhang, Wenqiao Zhang, Kaitao Song, Weiming Lu, Yueting Zhuang

研究方向: 图形用户界面(GUI)自动化与视觉语言模型(VLM)结合

FOCUS是一个结合快速预测与深入分析的GUI定位模型,旨在提高GUI自动化系统的性能,使其能够更准确地根据自然语言指令定位和解释界面元素。

ID: 2503.06470v1来源: arxiv发布时间: 2025-03-11

StructGS: Adaptive Spherical Harmonics and Rendering Enhancements for Superior 3D Gaussian Splatting

作者: Zexu Huang, Min Xu, Stuart Perry

研究方向: 三维重建与渲染

本文研究了如何通过改进三维高斯分裂技术(3DGS)来提高三维重建和渲染的质量。主要目标是减少计算冗余,提高细节捕捉能力,并支持从低分辨率输入生成高分辨率输出。

ID: 2503.06462v1来源: arxiv发布时间: 2025-03-11

Geometric Knowledge-Guided Localized Global Distribution Alignment for Federated Learning

作者: Yanbiao Ma, Wei Dai, Wenke Huang, Jiayi Chen

研究方向: 联邦学习与数据异构性

本文针对联邦学习中数据异构性问题,提出了基于几何知识引导的局部全局分布对齐方法,旨在解决局部和全局分布之间的显著不一致性,从而提高模型在异构数据上的性能。

ID: 2503.06457v1来源: arxiv发布时间: 2025-03-11

BEHAVIOR Robot Suite: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activities

作者: Yunfan Jiang, Ruohan Zhang, Josiah Wong, Chen Wang, Yanjie Ze, Hang Yin, Cem Gokmen, Shuran Song, Jiajun Wu, Li Fei-Fei

研究方向: 人机交互,机器人学,机器学习

该论文提出了一种名为BEHAVIOR ROBOT SUITE (BRS)的框架,旨在通过结合硬件和软件创新,实现机器人对日常家庭任务的全身操作。BRS通过JoyLo和Whole-Body VisuoMotor Attention (WB-VIMA)算法,实现了机器人对家庭环境的导航、对象的抓取和放置,以及复杂任务的完成。

ID: 2503.05652v1来源: arxiv发布时间: 2025-03-10

dARt Vinci: Egocentric Data Collection for Surgical Robot Learning at Scale

作者: Yihao Liu, Yu-Chun Ku, Jiaming Zhang, Hao Ding, Peter Kazanzides, Mehran Armand

研究方向: 机器人学习,特别是手术机器人学习

dARt Vinci是一个用于手术机器人学习的可扩展数据收集平台,通过使用增强现实(AR)手部追踪和高保真物理引擎来捕捉基础手术任务中的微妙动作。该系统消除了对物理机器人设置的需求,并提供了时间、空间和硬件资源方面的灵活性,从而使得专业模拟成为可行的替代方案。

ID: 2503.05646v1来源: arxiv发布时间: 2025-03-10

Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning

作者: Justin Chih-Yao Chen, Sukwon Yun, Elias Stengel-Eskin, Tianlong Chen, Mohit Bansal

研究方向: 自然语言处理、机器学习、多智能体系统

该论文提出了一种名为SYMBOLIC-MOE的混合专家模型框架,旨在通过自适应地选择和混合预训练的语言模型(LLM)来提高复杂推理任务的性能。该框架使用技能基的专家选择策略,并引入了批量推理机制,以提高效率和可扩展性。

ID: 2503.05641v1来源: arxiv发布时间: 2025-03-10

VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control

作者: Yuxuan Bian, Zhaoyang Zhang, Xuan Ju, Mingdeng Cao, Liangbin Xie, Ying Shan, Qiang Xu

研究方向: 计算机视觉,视频处理,人工智能生成内容

VideoPainter是一种高效的、基于扩散变换器的视频修复和编辑框架,旨在解决现有方法在处理任意长度视频修复和编辑时的挑战,如背景与前景的平衡、对象身份的保持以及视频质量。

ID: 2503.05639v1来源: arxiv发布时间: 2025-03-10

TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models

作者: Mark YU, Wenbo Hu, Jinbo Xing, Ying Shan

研究方向: 计算机视觉,视频生成,三维重建

该研究提出了一种名为TrajectoryCrafter的新方法,用于对单目视频中的摄像机轨迹进行重定向。通过将确定性的视图变换与随机的内容生成分离,该方法实现了对用户指定摄像机轨迹的精确控制。它使用了一种新型的双流条件视频扩散模型,该模型同时整合点云渲染和源视频作为条件,以确保精确的视图变换和连贯的4D内容生成。

ID: 2503.05638v1来源: arxiv发布时间: 2025-03-10

Exploring FMCW Radars and Feature Maps for Activity Recognition: A Benchmark Study

作者: Ali Samimi Fard, Mohammadreza Mashhadigholamali, Samaneh Zolfaghari, Hajar Abedi, Mainak Chakraborty, Luigi Borzì, Masoud Daneshtalab, George Shaker

研究方向: 人机交互,智能家居,医疗健康

本研究提出了一种基于频率调制连续波雷达(FMCW)的人体活动识别框架,利用60 GHz雷达和多维特征图。该框架通过将多维特征图(范围-多普勒、范围-方位和范围-仰角)作为数据向量直接输入到机器学习和深度学习模型中,保留了数据的时空结构。研究通过一个包含七个活动类别的数据集进行验证,并使用两种不同的验证方法。

ID: 2503.05629v1来源: arxiv发布时间: 2025-03-10

Superintelligence Strategy: Expert Version

作者: Dan Hendrycks, Eric Schmidt, Alexandr Wang

研究方向: 人工智能与国家安全

本文探讨了人工智能(AI)对国家安全的影响,提出了应对AI带来的风险和挑战的策略。文章分析了AI在军事、经济和恐怖主义方面的潜在威胁,并提出了预防措施,包括建立相互确保AI故障(MAIM)的威慑机制、限制AI的非扩散以及提高国家的竞争力。

ID: 2503.05628v1来源: arxiv发布时间: 2025-03-10