EMT: A Visual Multi-Task Benchmark Dataset for Autonomous Driving in the Arab Gulf Region

作者: Nadya Abdel Madjid, Murad Mebrahtu, Abdelmoamen Nasser, Bilal Hassan, Naoufel Werghi, Jorge Dias, Majid Khonji

发布时间: 2025-02-27

来源: arxiv

研究方向: 自动驾驶

主要内容

本文介绍了EMT数据集,这是首个公开的、在阿拉伯海湾地区收集的自动驾驶数据集。该数据集旨在解决当前自动驾驶数据集中对阿拉伯海湾地区独特驾驶条件的代表性不足的问题。

主要贡献

1. 创建了一个新的、公开的自动驾驶数据集,该数据集包含了阿拉伯海湾地区的独特交通条件。

2. 提出了针对跟踪、轨迹预测和意图预测的三个主要任务,并提供了相应的评估。

3. 收集了超过30,000帧来自车载摄像头的图像,以及570,000个标注的边界框,覆盖了约150公里的驾驶路线。

4. 提供了用于评估模型性能的基准数据集和评估模型。

5. 对现有数据集和模型进行了综述,包括多目标跟踪、轨迹预测和意图预测模型。

研究方法

1. 数据收集:使用车载摄像头在阿联酋的两个主要城市及其间道路上进行数据收集。

2. 数据标注:对每个帧中的每个显著对象和参与者进行标注,包括车辆、行人、小型机动车辆、摩托车和自行车。

3. 多目标跟踪:使用基于卡尔曼滤波的跟踪器在跟踪检测设置中进行多目标跟踪实验。

4. 轨迹预测:评估了三种深度学习架构,包括基于LSTM的模型、基于Transformer的模型和基于图神经网络的模型。

5. 意图预测:使用LSTM模型对过去轨迹进行分类和预测未来意图。

实验结果

实验结果表明,针对跟踪、轨迹预测和意图预测的任务,所提出的模型和方法在EMT数据集上均取得了良好的性能。对于跟踪任务,微调的检测器显著提高了性能。对于轨迹预测任务,Transformer结合GMM模型在预测精度方面表现最佳。对于意图预测任务,LSTM模型在所有时间戳上的F1分数最高。

未来工作

未来的工作将包括:整合Sim2Real场景生成,以包括代表性不足的场景;收集一个包含激光雷达、摄像头数据和定位信息的多模态数据集;在多个现有数据集上训练模型,并在区域数据上评估它们;包括微调样本,以评估泛化能力和模型在罕见场景上的性能。