Online Language Splatting
作者: Saimouli Katragadda, Cho-Ying Wu, Yuliang Guo, Xinyu Huang, Guoquan Huang, Liu Ren
发布时间: 2025-03-14
来源: arxiv
研究方向: 计算机视觉与机器人
主要内容
该研究提出了一种名为“在线语言喷溅”的框架,该框架能够通过在线方式将语言信息与3D场景表示进行映射,从而实现AI在3D环境中的自然语言交互。该框架利用3D高斯喷溅技术,结合实时高分辨率CLIP嵌入、开放词汇特征压缩和颜色-语言解耦优化策略,实现了高效、准确的在线语言映射。
主要贡献
1. 提出了第一个近实时、开放词汇的在线语言喷溅框架,使得AI能够与人类语言进行灵活交互。
2. 通过实时高分辨率CLIP嵌入、开放词汇特征压缩和颜色-语言解耦优化策略解决了在线语言喷溅中的关键挑战。
3. 实验结果表明,该方法在准确性方面超过了现有的离线方法,同时效率提升了40倍以上。
研究方法
1. 3D高斯喷溅(3DGS)
2. 实时高分辨率CLIP嵌入
3. 开放词汇特征压缩
4. 颜色-语言解耦优化
5. Super-Resolution Decoder(SRD)
6. Online-Learned AutoEncoder(OLAE)
实验结果
实验结果表明,该方法在Replica和TUM RGB-D数据集上均取得了优于现有方法的性能。在Replica数据集上,该方法在定位精度和运行时间方面均优于现有的离线方法。在TUM RGB-D数据集上,该方法在图像渲染质量和相机定位精度方面均优于现有的SLAM-GS方法。
未来工作
未来工作将包括将该方法扩展到动态场景,并探索语言特征的不确定性量化,以进一步提高定位的可靠性和实用性。