CoT-Drive: Efficient Motion Forecasting for Autonomous Driving with LLMs and Chain-of-Thought Prompting
作者: Haicheng Liao, Hanlin Kong, Bonan Wang, Chengyue Wang, Wang Ye, Zhengbing He, Chengzhong Xu, Zhenning Li
发布时间: 2025-03-11
来源: arxiv
研究方向: 自动驾驶中的运动预测与大型语言模型(LLM)应用
主要内容
该研究提出了一种名为CoT-Drive的新的运动预测方法,通过结合大型语言模型(LLMs)和思维链(CoT)提示方法来提高预测准确性。该方法利用教师-学生知识蒸馏策略,将LLMs的高级场景理解能力转移到轻量级语言模型(LMs),确保CoT-Drive在边缘设备上实时运行,同时保持全面的场景理解和泛化能力。
主要贡献
1. 提出了一种名为CoT-Drive的新的运动预测框架,通过LLMs和CoT提示方法提高预测准确性。
2. 引入了一种教师-学生知识蒸馏策略,将LLMs的高级场景理解能力转移到轻量级LMs。
3. 开发了两个新的场景描述数据集,Highway-Text和Urban-Text,用于微调轻量级LMs以生成特定上下文的语义注释。
4. 在五个真实世界数据集上进行了全面的评估,证明了CoT-Drive在处理复杂交通场景方面的有效性和效率。
研究方法
1. 使用LLMs和CoT提示方法进行场景理解。
2. 引入教师-学生知识蒸馏策略,将LLMs的知识转移到轻量级LMs。
3. 开发并使用Highway-Text和Urban-Text数据集进行LMs的微调。
4. 在多个真实世界数据集上对CoT-Drive进行评估,包括NGSIM、HighD、MoCAD、ApolloScape和nuScenes。
实验结果
在五个真实世界数据集上的评估表明,CoT-Drive在多个指标上优于现有模型,包括ADE、FDE、RMSE和minADE。此外,CoT-Drive在处理复杂交通场景方面表现出色,例如高速公路、城市地区和交叉路口。
未来工作
未来的工作将集中在提高CoT-Drive在罕见和挑战性场景中的鲁棒性,减少对高质量标注数据的依赖,并探索无监督和半监督学习方法来生成场景描述。此外,将研究强化学习和进化学习在运动预测中的应用,并探讨LLMs作为自动驾驶长期解决方案的可行性。