Online Language Splatting

作者: Saimouli Katragadda, Cho-Ying Wu, Yuliang Guo, Xinyu Huang, Guoquan Huang, Liu Ren

发布时间: 2025-03-14

来源: arxiv

研究方向: 计算机视觉与机器人

主要内容

该研究提出了一种名为“在线语言喷溅”的框架，该框架能够通过在线方式将语言信息与3D场景表示进行映射，从而实现AI在3D环境中的自然语言交互。该框架利用3D高斯喷溅技术，结合实时高分辨率CLIP嵌入、开放词汇特征压缩和颜色-语言解耦优化策略，实现了高效、准确的在线语言映射。

1. 提出了第一个近实时、开放词汇的在线语言喷溅框架，使得AI能够与人类语言进行灵活交互。

2. 通过实时高分辨率CLIP嵌入、开放词汇特征压缩和颜色-语言解耦优化策略解决了在线语言喷溅中的关键挑战。

3. 实验结果表明，该方法在准确性方面超过了现有的离线方法，同时效率提升了40倍以上。

1. 3D高斯喷溅（3DGS）

2. 实时高分辨率CLIP嵌入

3. 开放词汇特征压缩

4. 颜色-语言解耦优化

5. Super-Resolution Decoder（SRD）

6. Online-Learned AutoEncoder（OLAE）

实验结果表明，该方法在Replica和TUM RGB-D数据集上均取得了优于现有方法的性能。在Replica数据集上，该方法在定位精度和运行时间方面均优于现有的离线方法。在TUM RGB-D数据集上，该方法在图像渲染质量和相机定位精度方面均优于现有的SLAM-GS方法。

未来工作将包括将该方法扩展到动态场景，并探索语言特征的不确定性量化，以进一步提高定位的可靠性和实用性。