Temporal Triplane Transformers as Occupancy World Models

作者: Haoran Xu, Peixi Peng, Guang Tan, Yiqian Chang, Yisen Zhao, Yonghong Tian

发布时间: 2025-03-11

来源: arxiv

研究方向: 自动驾驶与三维环境建模

主要内容

该研究提出了一种名为T[3]Former的新四维占用世界模型,用于自动驾驶中的环境建模和运动规划。该模型通过压缩3D占用数据,提取多尺度时间运动特征,并使用自回归方法迭代预测未来的占用状态和运动轨迹。

主要贡献

1. 设计了一种新的4D自回归占用世界模型T[3]Former,提高了长期场景预测和精确运动规划的能力。

2. T[3]Former通过预训练紧凑的占用三平面表示,使用多尺度Transformer预测三平面的增量变化。

3. T[3]Former将预测的增量变化与前一帧的输出相结合,解码为占用状态和运动轨迹。

4. 通过大量实验验证了T[3]Former在占用预测、运动规划和实时执行方面的优越性能。

研究方法

1. 三平面表示:将3D占用数据压缩到三平面结构中,保留了几何和语义细节。

2. 多尺度Transformer:提取多尺度时间运动特征,用于迭代预测三平面的增量变化。

3. 自回归预测:使用自回归方法,逐步预测未来的占用状态和运动轨迹。

4. 运动规划:基于预测的占用状态变化和前一帧的输出,生成运动建议。

实验结果

T[3]Former在占用预测和运动规划方面优于现有方法,实现了1.44倍的推理速度(26 FPS),同时提高了平均IoU到36.09,将平均绝对规划误差降低到1.0米。

未来工作

未来工作将深入探索生成驾驶视图,重点关注提示约束、图像纹理和T[3]Former之间的协同作用。