Easi3R: Estimating Disentangled Motion from DUSt3R Without Training

作者: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen

研究方向: 计算机视觉,动态场景重建

本文提出了一种名为Easi3R的无监督训练方法,用于从动态视频中估计分离的运动。该方法基于DUSt3R模型,通过分析注意力图来提取运动信息,并在不进行预训练或网络微调的情况下实现动态区域分割、相机姿态估计和4D密集点云重建。

ID: 2503.24391v1来源: arxiv发布时间: 2025-04-02

SU-YOLO: Spiking Neural Network for Efficient Underwater Object Detection

作者: Chenyang Li, Wenxuan Liu, Guoqiang Gong, Xiaobo Ding, Xian Zhong

研究方向: 水下目标检测与神经形态计算

提出了一种基于脉冲神经网络(SNN)的水下目标检测模型SU-YOLO,旨在解决水下环境中图像噪声和计算资源限制的问题。

ID: 2503.24389v1来源: arxiv发布时间: 2025-04-02

RIG: Synergizing Reasoning and Imagination in End-to-End Generalist Policy

作者: Zhonghan Zhao, Wenwei Zhang, Haian Huang, Kuikun Liu, Jianfei Gao, Gaoang Wang, Kai Chen

研究方向: 智能体在开放世界环境中的推理与想象协同

本文提出了一种名为RIG的端到端通用策略,通过协同推理和想象能力来提高智能体在复杂开放世界环境中的表现。RIG模型通过在Transformer中实现序列到序列建模,联合学习文本推理、低级动作控制和图像生成,从而更全面地捕捉开放世界动态并提高训练的样本效率。

ID: 2503.24388v1来源: arxiv发布时间: 2025-04-02

Consistent Subject Generation via Contrastive Instantiated Concepts

作者: Lee Hsin-Ying, Kelvin C. K. Chan, Ming-Hsuan Yang

研究方向: 计算机视觉与自然语言处理

该研究提出了一种名为Contrastive Concept Instantiation (CoCoIns)的生成框架,旨在解决文本到图像生成模型中多创作之间的主题一致性问题。该框架通过在潜在空间中建模概念实例,并使用对比学习将潜在代码与特定概念实例关联起来,从而实现无需调整或参考的一致主题生成。

ID: 2503.24387v1来源: arxiv发布时间: 2025-04-02

Free360: Layered Gaussian Splatting for Unbounded 360-Degree View Synthesis from Extremely Sparse and Unposed Views

作者: Chong Bao, Xiyu Zhang, Zehao Yu, Jiale Shi, Guofeng Zhang, Songyou Peng, Zhaopeng Cui

研究方向: 三维重建与渲染

本文提出了一种名为Free360的新型神经网络渲染框架,用于从极稀疏和无姿态的视角中重建和解算无界360度场景。该框架能够有效地解决无界场景中空间模糊性问题,并通过迭代融合重建和生成过程,实现高质量的三维重建和新型视图合成。

ID: 2503.24382v1来源: arxiv发布时间: 2025-04-02

UniOcc: A Unified Benchmark for Occupancy Forecasting and Prediction in Autonomous Driving

作者: Yuping Wang, Xiangyu Huang, Xiaokang Sun, Mingxuan Yan, Shuo Xing, Zhengzhong Tu, Jiachen Li

研究方向: 自动驾驶中的占有率预测与预测

本文介绍了UniOcc,这是一个用于自动驾驶中占有率预测和预测的综合、统一基准。UniOcc统一了来自多个真实世界数据集(如nuScenes和Waymo)和高保真驾驶模拟器(如CARLA和OpenCOOD)的数据,提供了二维/三维占有率标签,带有每个体素的流动注释,并支持协同自动驾驶。该基准通过引入新的评估指标,使评估不依赖于地面实况占有率,从而能够对占有率质量的各个方面进行稳健的评估。

ID: 2503.24381v1来源: arxiv发布时间: 2025-04-02

Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

作者: Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua

研究方向: 可控视频生成与多模态语言模型

本文提出了一种名为Any2Caption的框架,用于将多种条件(如文本、图像、视频、运动和相机姿态)转换为结构化的视频描述字幕,从而实现可控视频生成。该框架利用多模态大语言模型(MLLM)来理解和解释这些条件,并生成高质量的、符合用户意图的视频。

ID: 2503.24379v1来源: arxiv发布时间: 2025-04-02

ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning

作者: Harsha Kokel, Michael Katz, Kavitha Srinivas, Shirin Sohrabi

研究方向: 人工智能规划与推理

本文研究了人工智能在规划与推理领域的应用,通过构建ACPBench Hard数据集,对大型语言模型在规划任务中的推理能力进行了评估。

ID: 2503.24378v1来源: arxiv发布时间: 2025-04-02

Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models

作者: Rui Wang, Hongru Wang, Boyang Xue, Jianhui Pang, Shudong Liu, Yi Chen, Jiahao Qiu, Derek Fai Wong, Heng Ji, Kam-Fai Wong

研究方向: 高效推理的大语言模型(LLMs)

本文调查了LLMs在推理经济方面的研究,重点关注在训练后和测试推理阶段提高推理效率的方法。文章分析了推理低效的原因,分析了不同推理模式的特征,并探讨了实现推理经济的潜在解决方案。

ID: 2503.24377v1来源: arxiv发布时间: 2025-04-02

Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1

作者: Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu

研究方向: 多模态大型语言模型(MLLM)在视频理解中的应用与评估

本文研究了通过强化学习(RL)提升MLLM在视频理解任务中的性能,并介绍了SEED-Bench-R1基准,用于系统性地评估MLLM在视频理解中的后训练方法。

ID: 2503.24376v1来源: arxiv发布时间: 2025-04-02