Online Language Splatting

作者: Saimouli Katragadda, Cho-Ying Wu, Yuliang Guo, Xinyu Huang, Guoquan Huang, Liu Ren

发布时间: 2025-03-14

来源: arxiv

研究方向: 计算机视觉与机器人

主要内容

该研究提出了一种名为“在线语言喷溅”的框架,该框架能够通过在线方式将语言信息与3D场景表示进行映射,从而实现AI在3D环境中的自然语言交互。该框架利用3D高斯喷溅技术,结合实时高分辨率CLIP嵌入、开放词汇特征压缩和颜色-语言解耦优化策略,实现了高效、准确的在线语言映射。

主要贡献

1. 提出了第一个近实时、开放词汇的在线语言喷溅框架,使得AI能够与人类语言进行灵活交互。

2. 通过实时高分辨率CLIP嵌入、开放词汇特征压缩和颜色-语言解耦优化策略解决了在线语言喷溅中的关键挑战。

3. 实验结果表明,该方法在准确性方面超过了现有的离线方法,同时效率提升了40倍以上。

研究方法

1. 3D高斯喷溅(3DGS)

2. 实时高分辨率CLIP嵌入

3. 开放词汇特征压缩

4. 颜色-语言解耦优化

5. Super-Resolution Decoder(SRD)

6. Online-Learned AutoEncoder(OLAE)

实验结果

实验结果表明,该方法在Replica和TUM RGB-D数据集上均取得了优于现有方法的性能。在Replica数据集上,该方法在定位精度和运行时间方面均优于现有的离线方法。在TUM RGB-D数据集上,该方法在图像渲染质量和相机定位精度方面均优于现有的SLAM-GS方法。

未来工作

未来工作将包括将该方法扩展到动态场景,并探索语言特征的不确定性量化,以进一步提高定位的可靠性和实用性。