Temporal Triplane Transformers as Occupancy World Models
作者: Haoran Xu, Peixi Peng, Guang Tan, Yiqian Chang, Yisen Zhao, Yonghong Tian
发布时间: 2025-03-11
来源: arxiv
研究方向: 自动驾驶与三维环境建模
主要内容
该研究提出了一种名为T[3]Former的新四维占用世界模型,用于自动驾驶中的环境建模和运动规划。该模型通过压缩3D占用数据,提取多尺度时间运动特征,并使用自回归方法迭代预测未来的占用状态和运动轨迹。
主要贡献
1. 设计了一种新的4D自回归占用世界模型T[3]Former,提高了长期场景预测和精确运动规划的能力。
2. T[3]Former通过预训练紧凑的占用三平面表示,使用多尺度Transformer预测三平面的增量变化。
3. T[3]Former将预测的增量变化与前一帧的输出相结合,解码为占用状态和运动轨迹。
4. 通过大量实验验证了T[3]Former在占用预测、运动规划和实时执行方面的优越性能。
研究方法
1. 三平面表示:将3D占用数据压缩到三平面结构中,保留了几何和语义细节。
2. 多尺度Transformer:提取多尺度时间运动特征,用于迭代预测三平面的增量变化。
3. 自回归预测:使用自回归方法,逐步预测未来的占用状态和运动轨迹。
4. 运动规划:基于预测的占用状态变化和前一帧的输出,生成运动建议。
实验结果
T[3]Former在占用预测和运动规划方面优于现有方法,实现了1.44倍的推理速度(26 FPS),同时提高了平均IoU到36.09,将平均绝对规划误差降低到1.0米。
未来工作
未来工作将深入探索生成驾驶视图,重点关注提示约束、图像纹理和T[3]Former之间的协同作用。