文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

近200+自动驾驶数据集全面调研!一览如何数据闭环全流程

2024-11-30 01:52

关注

当前行业的概述

自动驾驶(AD)旨在通过创建能够准确感知环境、做出智能决策并在没有人类干预的情况下安全行驶的车辆,彻底改变交通系统。由于令人激动的技术发展,各种自动驾驶产品已在多个领域实施,例如无人出租车。这些对自动驾驶的快速进展在很大程度上依赖于大量的数据集,这些数据集帮助自动驾驶系统在复杂的驾驶环境中变得稳健可靠。

近年来,自动驾驶数据集的质量和种类显著增加。数据集开发的第一个显著现象是各种不同的数据收集策略,包括通过仿真器生成的合成数据集和从真实世界记录的数据集等。其次,数据集在组成方面也各种各样,包括但不限于多种感知数据(如相机图像和LiDAR点云)以及用于自动驾驶各个任务的不同标注类型。下图1以俯视图的方式显示了六个真实世界数据集(Argoverse 2 、KITTI 、nuScenes 、ONCE 、Waymo 和ZOD )的3D目标边界框分布的统计数据,展示了每个数据集的独特标注特性。

根据传感器的设备位置,数据集的多样性还体现在感知领域中,包括车载、V2X、无人机等。此外,几何多样性和天气条件的改变提高了自动驾驶数据集的泛化能力。

为什么研究?动机是什么?

下图2中展示了每年发布的感知数据集数量,以从一个角度反映自动驾驶数据集的趋势。由于存在大量且不断增加的公开发布的数据集,对自动驾驶数据集进行全面调查对推动学术和工业研究非常有价值。在先前的工作中,Yin等人总结了27个在公共道路上收集的数据的公开可用数据集。[35]除了描述现有数据集,讨论了合成数据和真实数据之间的域适应以及自动标注方法。[36]总结了现有数据集,并对下一代数据集的特征进行了详尽的分析。然而,这些调查仅总结了少量数据集,导致范围不够广泛。AD-Dataset 收集了大量数据集,但缺乏对这些数据集属性的详细分析。与对所有类型的数据集进行研究相比,一些研究人员对特定类型的自动驾驶数据集进行了调查,例如异常检测、合成数据集、3D语义分割和决策。

因此,本文的目标是提出一项全面而系统的研究,涵盖自动驾驶中的大量数据集,从感知到控制的所有任务,考虑真实世界和合成数据,并深入了解若干关键数据集的数据模态和质量。在下表I中对比了其他数据集调查和作者的调查。

主要贡献

本文的主要贡献可总结如下:

范围与局限性

本文的目标是对现有的自动驾驶数据集进行详尽调查,以提供对该领域未来算法和数据集的开发提供帮助和指导。收集了侧重于四个基本自动驾驶任务的数据集:感知、预测、规划和控制。由于有几个多功能数据集支持多个任务,作者只在它们主要支持的主要范围中解释它们,以避免重复介绍。此外,收集了大量数据集,并以它们的主要特征展示在表格中。然而,对所有收集到的数据集进行详细解释可能无法突显最受欢迎的数据集,可能会妨碍研究人员通过这项调查找到有价值的数据集。因此,只详细描述了最有影响力的数据集。

文章结构

本文的其余部分结构如下:第二节介绍了用于获取公共数据集以及数据集的评估指标的方法。第三节展示了自动驾驶中使用的主要传感器及其模态。第四节讨论了自动驾驶任务、相关挑战和所需数据。在第五节进一步讨论了几个重要的数据集。在第六节展示了标注过程和影响标注质量的因素。此外,在第七节对几个数据集的数据分布进行了统计。在第八节中,调查了自动驾驶数据集的发展趋势和未来工作。最后,在第九节总结。此调查的分类结构如下图3所示。

方法论介绍

本节包括1) 如何收集和筛选数据集(II-A),以及2) 如何评估数据集对自动驾驶领域的影响(II-B)。

数据集收集

作者遵循[42]的方法进行系统性的回顾,以详尽收集已发布的自动驾驶数据集。为确保来源的多样性,作者利用了知名的搜索引擎,如Google、Google Scholar和Baidu来搜索数据集。为了确保从各个国家和地区全面收集数据集,使用英语、中文和德语进行搜索,使用关键词如“autonomous driving datasets”、“intelligent vehicle datasets”以及与目标检测、分类、跟踪、分割、预测、规划和控制相关的术语。

此外,在IEEE Xplore和自动驾驶及智能交通系统领域的相关会议中搜索,以收集来自期刊和会议论文集的数据集。通过关键词搜索和手动审查验证了这些来源的数据集。

最后,为了确保包括专业或较少知名的数据集,作者通过Github仓库和Paperwithcodes进行了搜索。类似于数据库,对数据集进行了手动和基于关键词的搜索。

数据集评估指标

作者引入了一个新的度量标准,即影响分数(impact score),用于评估已发布数据集的重要性,这也可以作为准备新数据集的指南。在本节中,详细解释了计算自动驾驶数据集影响分数的方法。

为了进行公平和可比较的比较,作者仅考虑与感知领域相关的数据集,因为感知领域占据了自动驾驶数据集的很大一部分。此外,为了确保评分系统的客观性和可理解性,考虑了各种因素,包括引用次数、数据维度和环境多样性。所有的值都是从官方论文或开源数据集网站收集而来。

引用分数。首先,作者从总引用次数和平均年引用次数计算引用分数。为了获得公平的引用计数,选择数据集的最早版本的时间作为其发布时间。此外,为了确保比较基于一致的时间框架,所有引用次数都是截至2023年9月20日收集的。总引用次数 反映了数据集的总体影响力。这个指标的较高数值意味着数据集得到了广泛的认可和研究人员的使用。然而,较早发布的数据集可能积累更多的引用。为了解决这种不公平,作者利用平均年引用次数,它描述了数据集的年引用增速。计算函数如下公式1所示。

其中 和 分别表示当前年份和数据集发布年份。另一方面,引用次数 distastes 的范围很广,从几位数到几万位数不等。为了缓解极端的不平衡并突显每个数据集之间的差异,作者对  和  都进行了对数变换,然后进行 Min-Max 归一化,如公式2所示。

最终,引用分数 是和的总和:

数据维度评分。 从四个角度测量数据维度:数据集大小、时间信息、任务数量和标注类别。数据集大小 f 由数据集的帧数表示,反映了其容量和全面性。为了获得数据集大小评分 ,采用与引用分数相同的方法处理帧数,以克服不同数据集之间的极端不平衡。

时间信息对于自动驾驶至关重要,因为它使车辆能够了解周围环境随时间的变化。作者使用 t ∈{0, 1} 表示数据集是否包含时间信息。关于任务数量,作者只考虑与自动驾驶感知领域中的六个基本任务相关的数据集,例如 2D 目标检测、3D 目标检测、2D 语义分割、3D 语义分割、跟踪和车道线检测。因此,任务数量评分被记录为 。类别的数量对于数据集的稳健性和多功能性至关重要。在统计过程中,如果一个数据集支持多个任务并包含各种类型的标注,作者选择类别数量最多的数据。然后,将这些类别分为五个级别,l = {1, 2, 3, 4, 5},基于五分位数。在后续过程之前,作者对  和 l 进行了规范化,以简化计算。

为了尽可能客观地反映数据维度评分 ,作者给四个组成部分分配了不同的权重,如下公式4所示。

环境多样性评分。根据以下因素评估数据集的环境多样性:

  1. 天气条件,例如雨雪。
  2. 白天或黄昏等数据收集时间。
  3. 驾驶场景的类型,例如城市或乡村。
  4. 几何范围指的是数据记录的国家或城市数量。

值得注意的是,作者将合成数据集的几何范围视为缺失。按照论文对数据进行分类的粒度来量化多样性。此外,对于缺失值,如果数据集宣布数据是在多样化条件下记录的,作者使用中值作为缺失值。否则,将此属性的缺失值设为1。作者将每个因素量化为五个不同级别,然后环境多样性评分 是这四个因素的总和。

最后,利用公式5计算影响分数 。

总影响分数为100,其中60%属于引用分数 ,数据维度分数  和环境多样性分数  占40%。

数据源和自动驾驶中的协同感知

本节介绍主要用于自动驾驶的传感器及其模态。此外,分析了数据采集和通信领域,如车载、无人机和V2X的协同感知。

数据的传感器和模态

高效而准确地从周围环境中收集数据是自动驾驶可靠感知系统的关键。为了实现这一目标,在自动驾驶车辆和基础设施上使用了各种类型的传感器。传感器的示例如下图 4 所示。最常用的传感器是相机、LiDAR 和Radar。事件型和热成像相机也安装在车辆或道路旁边,以进一步提高感知能力。

RGB 图像。RGB 图像通常由单目、双目或鱼眼相机记录。单目相机提供不带深度的 2D 视图;双目相机通过其双镜头提供深度感知;鱼眼相机使用广角镜头捕捉广阔的视野。所有这些相机通过透镜将光传导到图像传感器(例如 CMOS),将这些光转换为表示图像的电子信号。如下图 5 (a) 所示,2D 图像捕捉环境的颜色信息、丰富的纹理、模式和视觉细节。由于这些特性,RGB 图像主要用于检测车辆和行人,并识别道路标志。然而,RGB 图像容易受到低照明、雨、雾或耀斑等条件的影响 。

LiDAR 点云。LiDAR 使用激光束测量传感器与目标之间的距离,从而创建 3D 环境表示 。LiDAR 点云(如下图 5 (b) 所示)提供高分辨率的精确空间信息,可以检测长距离内的目标。然而,这些点的密度会随着距离的增加而减小,导致远处目标的表示更为稀疏。天气条件,如雾,也会限制 LiDAR 的性能。总体而言,LiDAR 适用于需要 3D 简要信息的情况。

Radar点云。Radar通过发射射频波并分析其反射来检测目标、距离和相对速度。此外,Radar在各种天气条件下都具有很强的鲁棒性 。然而,Radar点云通常比 LiDAR 数据更粗糙,缺乏目标的详细形状或纹理信息。因此,Radar通常用于辅助其他传感器。下图 5 (c) 展示了Radar点云。

事件相机。事件型相机异步捕捉数据,仅在像素检测到亮度变化时才激活。捕捉到的数据称为事件(如图 5 (d) 所示)。由于采用了特定的数据生成方法,记录的数据具有极高的时间分辨率,并且可以捕捉快速运动而不模糊 。

热成像相机的红外图像。热成像相机(见下图 5 (e))通过捕捉红外辐射来检测热特征 。由于基于温差生成图像,热成像相机可以在完全黑暗中工作,并且不受雾或烟影响。然而,热成像相机无法分辨颜色或详细的视觉图案。此外,与光学相机相比,红外图像的分辨率较低。

惯性测量单元(IMU)。IMU 是一种电子设备,用于测量并报告目标的特定力、角速度,有时还有目标周围的磁场 。在自动驾驶中,它用于跟踪车辆的运动和方向。虽然 IMU 不包含周围环境的视觉信息,但通过将 IMU 的数据与其他传感器的数据融合,感知系统可以更准确、更鲁棒地跟踪车辆的运动和方向。

作者从收集的数据集中分析传感器的分布,如下图 6 所示。超过一半的传感器是单目相机(53.85%),这是因为它们价格低廉且性能可靠。此外,93 个数据集包含 LiDAR 数据,由于其高分辨率和精确的空间信息而受到重视。然而,由于高昂的成本,限制了 LiDAR 的广泛使用。除 LiDAR 点云外,29 个数据集利用双目相机捕捉深度信息。此外,分别包含Radar、热像相机和鱼眼相机的数据集比例分别为5.41%、3.42%和1.71%。考虑到以事件为基础的相机捕捉动态场景的时间效率,有三个数据集生成基于事件的相机数据。

传感域和协同感知系统

自动驾驶系统中,自车与周围环境中其他实体之间的感知数据和通信起着至关重要的作用,确保了自动驾驶系统的安全性、效率性和整体功能性。因此,传感器的位置决定了可以收集的数据的质量、角度和范围,因此非常关键。总体而言,在自动驾驶环境中,传感器可以分为以下几个领域:自车、车联网(V2X)、无人机和其他。

自车:自车传感器直接安装在自动驾驶车辆上,通常包括相机、LiDAR、Radar和惯性测量单元(IMU)。这些传感器提供了车辆视角的直接视图,即时反馈车辆周围的情况。然而,由于车辆检测范围的限制,自车传感器可能在提供盲点内障碍物的预警或检测急弯附近的危险方面存在局限性。

车联网(V2X):车联网包括车辆与交通系统中的任何其他组件之间的通信,包括车辆对车辆(V2V)、车辆对基础设施(V2I)和车辆对网络(V2N)(如下图7所示)。除了直接的感知输入外,协同系统确保多个实体协同工作。

  1. 车到车(V2V) V2V使附近的车辆能够共享数据,包括它们的位置、速度和传感器数据,如相机图像或LiDAR扫描,有助于更全面地了解驾驶场景。
  2. 车到基础设施(V2I) V2I促进了自动驾驶车辆与基础设施组件之间的通信,例如交通灯、标志或路边传感器。嵌入在道路基础设施中的传感器,包括相机、LiDAR、Radar或基于事件的相机,协同工作以扩展感知范围并提高自动驾驶车辆的情境感知。在这项调查中,作者将通过基础设施或V2I进行的感知都归类为V2I。
  3. 车到网络(V2N) V2N指的是在车辆和更广泛的网络基础设施之间交换信息,通常利用蜂窝网络为车辆提供对云数据的访问。V2N通过共享跨区域数据或提供有关交通拥堵或道路封闭的实时更新,帮助V2V和V2I的合作感知。

无人机(Drone):无人机提供了一种空中视角,提供了轨迹预测和路径规划所需的数据。例如,来自无人机的实时数据可以集成到交通管理系统中,以优化交通流并提醒自动驾驶车辆前方的事故。

其他  未由前三种类型收集的数据被定义为其他,例如安装在非车辆目标上或多个领域的其他设备。

自动驾驶中的任务

这一部分深入介绍了自动驾驶中的关键任务,如感知和定位、预测以及规划和控制。自动驾驶流程的概览如下图8所示。详细说明它们的目标、它们所依赖的数据的性质以及固有的挑战。图9展示了自动驾驶中若干主要任务的示例。


感知和定位

感知侧重于根据感知数据理解环境,而定位确定自动驾驶车辆在该环境中的位置。

2D/3D 目标检测

2D或3D目标检测旨在识别和分类驾驶环境中的其他实体。而2D目标检测在图像空间中识别目标,3D目标检测进一步整合由LiDAR提供的精确深度信息。尽管检测技术取得了显著进展,但仍存在一些挑战,如目标遮挡、光照变化和多样的目标外观。

通常情况下,使用AP度量来评估目标检测性能。根据[1],AP度量可表述为:

其中p(r)是精度-召回曲线。

2D/3D 语义分割

语义分割涉及将图像的每个像素或点云的每个点分类到其语义类别。从数据集的角度来看,保持细粒度的目标边界并管理大量标签要求对这个任务来说是一个重要的挑战。

正如中提到的,用于分割的主要度量标准包括平均像素准确率(mPA):

还有mIoU:

其中k*∈N是类别数,和和分别表示真正例、假正例和假反例。

目标跟踪

目标跟踪监控单个或多个目标随时间的轨迹。这项任务需要时间序列的RGB数据、LiDAR或Radar序列。通常,目标跟踪包括单目标跟踪或多目标跟踪(MOT)。

多目标跟踪准确度(MOTA)是用于多目标跟踪的广泛使用的度量,它结合了假反例、假正例和不匹配率(参见方程9):

其中,、和分别是随时间t的假正例、假反例和不匹配错误的数量。是真值。

此外,与其考虑单一阈值不同,Average MOTA(AMOTA)是基于所有目标置信阈值计算的。

高精度地图

高精度地图的目标是构建详细、高度准确的表示,其中包括有关道路结构、交通标志和地标的信息。一个数据集应该提供LiDAR数据以获取精确的空间信息,以及相机数据以获取视觉细节,以确保建立的地图准确性。

根据,高精度地图自动化和高精度地图变更检测越来越受到关注。通常,高精度地图的质量是通过准确度度量来估算的。

SLAM

同时定位与建图(SLAM)涉及构建周围环境的同时建图,并在该地图中定位车辆。因此,来自相机、用于位置跟踪的IMUs以及实时LiDAR点云的数据是至关重要的。引入了两个评估指标,相对位姿误差(RPE)和绝对轨迹误差(ATE),用于评估从输入RGB-D图像估计的轨迹的质量。

预测

预测是指对周围agents的未来状态或行为进行预测。这种能力确保在动态环境中更安全地导航。预测使用了一些评估指标,例如均方根误差(RMSE):

其中N是样本的总数,和分别表示预测轨迹和真值轨迹。

负对数似然(NLL)(见方程11)是另一个重点关注轨迹正确性的度量,可用于比较不同模型的不确定性。

其中C是总类数,是预测的正确性的二进制指示器,是相应的预测概率。

轨迹预测

利用来自相机和LiDAR等传感器的时间序列数据,轨迹预测涉及预测其他实体(如行人、骑车人或其他车辆)未来的路径或移动模式。

行为预测

行为预测预测其他道路使用者的潜在动作,例如车辆是否会变道。训练行为预测模型依赖于具有广泛标注的数据,因为在不同情境中实体可能采取各种潜在动作。

意图预测

意图预测侧重于推断目标行为背后的意图的高级目标,涉及对人类目标的物理或心理活动进行更深层次的语义理解。由于任务的复杂性,它不仅需要来自感知相机等传感器的数据,还需要其他信息,如交通信号和手势,以推断其他agents的意图。

规划与控制

  1. 规划: 规划代表对感知环境和预测做出反应的决策过程。经典的三级分层规划框架包括路径规划、行为规划和运动规划。
  1. 路径规划: 路径规划,也称为路线规划,涉及设定长期目标。这是一个高层次的过程,确定到达目的地的最佳路径。
  2. 行为规划: 行为规划位于框架的中层,与决策制定相关,包括变道、超车、合并和十字路口穿越等。这个过程依赖于对其他agents行为的正确理解和交互。
  3. 运动规划: 运动规划处理车辆实时应该遵循的实际轨迹,考虑到障碍物、道路状况和其他道路agents的预测行为。与路径规划相反,运动规划生成实现局部目标的适当路径。
  1. 控制: 自动驾驶中的控制机制管理自动驾驶汽车如何执行来自运动规划系统的决定的路径或行为,并纠正跟踪误差。它将高级命令转换为可执行的油门、刹车和转向命令。

端到端自动驾驶

端到端自动驾驶是指单个深度学习模型处理从感知到控制的所有任务,绕过传统的模块化流程。这样的模型通常更具适应性,因为它们通过学习来调整整个模型。它们的固有优势在于简单性和效率,通过减少手工制作组件的需求。然而,实施端到端模型面临着关键限制,如大量的训练数据需求、低解释性和不灵活的模块调整。

对端到端自动驾驶进行大规模基准测试可以分为闭环和开环评估。闭环评估基于仿真环境,而开环评估涉及根据来自真实世界数据集的专业驾驶行为评估系统的性能。

高影响力数据集

本节描述了在感知、预测、规划和控制领域中的具有里程碑意义的自动驾驶数据集。还展示了端到端自动驾驶的数据集。

感知数据集

感知数据集对于开发和优化自动驾驶系统至关重要。它们通过提供丰富的多模态感知数据,确保对周围环境进行有效感知和理解,从而增强车辆的可靠性和稳健性。

作者利用提出的数据集评估指标计算收集的感知数据集的影响分数,随后根据这些分数选择前50个数据集,以创建一个按时间顺序排列的概述,如下图10所示。同时,如前章节中所述,将数据集分为车载、V2X、无人机和其他,从每个类别中选择一个子集,编制一个包含50个数据集的综合表格(下表II)。值得注意的是,表中的数据集是按照其各自类别内的影响分数进行排序的,不代表总体的前50。在以下部分,作者选择了每个感知来源中影响分数最高的几个数据集,并考虑它们的发布年份。

车载

V2X

无人机

其它

预测、规划和控制数据集

预测、规划和控制数据集是促进训练和评估驾驶系统的基础,用于预测交通动态、行人移动和其他影响驾驶决策的重要因素。通过仿真各种驾驶场景,它们使自动驾驶车辆能够做出明智的决策,穿越复杂的环境,并在道路上保持安全和高效。因此,作者根据数据大小、模态和引用数量详细展示与这些任务相关的几个高影响力的数据集。将预测、规划和控制数据集总结为任务特定和多任务两组。

任务特定数据集:

多任务数据集:

端到端数据集

端到端已经成为自动驾驶中的一个趋势,作为模块化架构的替代。一些多功能数据集(如nuScenes 和Waymo )或仿真器(如CARLA )提供了开发端到端自动驾驶的机会。同时,一些工作提出了专门用于端到端驾驶的数据集。

在本调查中总结的其他数据集显示在表IV、表V、表VI中。

标注过程

自动驾驶算法的成功和可靠性不仅依赖于大量的数据,还依赖于高质量的标注。本节首先解释了标注数据的方法。此外分析了确保标注质量的最重要方面。

标注是如何创建的

不同的自动驾驶任务需要特定类型的标注。例如,目标检测需要实例的边界框标签,分割基于像素或点级别的标注,对于轨迹预测来说,标注连续的轨迹至关重要。另一方面,如下图11所示,标注流程可以分为三种类型:手动标注、半自动标注和全自动标注。在本节详细说明了不同类型标注的标注方法。

标注分割数据。标注分割数据的目标是为图像中的每个像素或LiDAR帧中的每个点分配一个标签,以指示它属于哪个目标或区域。在标注之后,属于同一目标的所有像素都用相同的类别进行标注。对于手动标注过程,标注者首先在目标周围画出边界,然后填充区域或直接涂抹像素。然而,以这种方式生成像素/点级别标注是昂贵且低效的。

许多研究提出了全自动或半自动的标注方法以提高标注效率。提出了一种基于弱监督学习的完全自动标注方法,用于分割图像中提出的可行驶路径。[265]是一种半自动标注方法,利用目标先验生成分割mask。之后,[266]提出了一种考虑20个类别的半自动方法。Polygon-RNN++ 提出了一种交互式分割标注工具,遵循[268]的思路。[269]不使用图像信息生成像素级标签,而是将3D信息转移到2D图像领域生成语义分割标注。对于标注3D数据,[270]提出了一个图像辅助标注流程。[271]利用主动学习选择少量点并形成最小训练集,以避免标注整个点云场景。[272]引入了一种使用半/弱监督学习进行标注的高效标注框架,以标注室外点云。

标注2D/3D边界框。边界框标注的质量直接影响了自动驾驶车辆感知系统(如目标检测)在现实场景中的有效性和鲁棒性。标注过程通常涉及使用矩形框标注图像或使用长方体标注点云,以精确包围感兴趣的目标。

Labelme 是一种专注于为目标检测标注图像的工具。然而,由专业标注者生成边界框面临与手动分割标注相同的问题。Wang等人 提出了一种基于开源视频标注系统VATIC的半自动视频标注工具。[275]是另一种用于自动驾驶场景的视频标注工具。与白天标注相比,处理夜间的边界框标注更具挑战性。[276]介绍了一种利用轨迹的半自动方法来解决这个问题。

与2D标注相比,3D边界框包含了更丰富的空间信息,如准确的位置、目标的宽度、长度、高度以及空间中的方向。因此,标注高质量的3D标注需要一个更复杂的框架。Meng等人 应用了一个两阶段的弱监督学习框架,使用人为循环来标注LiDAR点云。ViT-WSS3D 通过对LiDAR点和相应弱标签之间的全局交互建模来生成伪边界框。Apolloscape 采用了类似于的标注流程,包括3D标注和2D标注两个分支,分别处理静态背景/目标和移动目标。3D BAT 开发了一个标注工具箱,以辅助在半自动标注中获取2D和3D标签。

标注轨迹。轨迹本质上是一系列点,映射了目标随时间的路径,反映了空间和时间信息。为自动驾驶标注轨迹数据的过程涉及对驾驶环境中各种实体的路径或运动模式进行标注,如车辆、行人和骑车者。通常,标注过程依赖于目标检测和跟踪的结果。

在轨迹标注的先前工作中,[280]在线生成了用于演习的动作,并被标注到轨迹中。[281]包括一个众包步骤,后跟一个专家集成的精确过程。[282]开发了一个主动学习框架来标注驾驶轨迹。精确地预测行人的运动模式对于驾驶安全至关重要。Styles等人 引入了一种可扩展的机器标注方案,用于无需人工努力的行人轨迹标注。

在合成数据上进行标注。由于在真实世界数据上进行手动标注的费时昂贵,通过计算机图形和仿真器生成的合成数据提供了解决这个问题的替代方法。由于数据生成过程是可控的,场景中每个目标的属性(如位置、大小和运动)都是已知的,因此可以自动且准确地标注合成数据。

生成的合成场景被设计成模仿真实世界的条件,包括多个目标、各种地貌、天气条件和光照变化。为了实现这个目标,一些研究人员利用了《侠盗猎车手5》(GTA5)游戏引擎构建了数据集 。[284]基于多个游戏构建了一个实时系统,用于生成各种自动驾驶任务的标注。SHIFT 、CAOS 和V2XSet 是基于CARLA 仿真器创建的,而不是应用游戏视频。与[11]相比,V2X-Sim 研究了使用多个仿真器 ,为V2X感知任务生成数据集。CODD 进一步利用生成用于合作驾驶的3D LiDAR点云。其他工作利用Unity开发平台 生成合成数据集。

标注的质量

现有基于监督学习的自动驾驶算法依赖于大量的标注数据。然而,在质量低的标注上进行训练可能会对自动驾驶车辆的安全性和可靠性产生负面影响。因此,确保标注的质量对于提高在复杂的现实环境中行驶时的准确性是至关重要的。根据研究,标注质量受到多个因素的影响,例如一致性、正确性、精度和验证。一致性是评估标注质量的首要标准。它涉及在整个数据集上保持一致性,对于避免在训练在这些数据上的模型时产生混淆至关重要。例如,如果特定类型的车辆被标注为汽车,那么在所有其他情况下,它应该被一致地进行相同的标注。标注精度是另一个重要的指标,它指的是标签是否与目标或场景的实际状态相匹配。相比之下,正确性强调标注的数据是否适用于数据集的目的和标注准则。在标注之后,验证标注数据的准确性和完整性是至关重要的。这个过程可以通过专家或算法的手动审查来完成。验证有助于在问题影响自动驾驶车辆性能之前有效地防止数据集中的问题,从而减少潜在的安全风险。[288]提出了一种面向数据的验证方法,适用于专家标注的数据集。

KITTI 的一个标注失败案例如下图12所示。在相应的图像和LiDAR点云中说明了真值边界框(蓝色)。在图像的左侧,汽车的标注(用红色圈出)不准确,因为它未包含整个汽车目标。此外,尽管相机和LiDAR清晰捕捉到两辆汽车(绿色长方体突出显示),但它们未被标注。

数据分析

这一部分将详细系统地从不同角度分析数据集,例如全球数据的分布,时间趋势,以及数据分布。

全球分布

在图13中展示了191个自动驾驶数据集的全球分布概况。该图表显示美国处于领先地位,拥有40个数据集(占比21%),突显了其在自动驾驶领域的领导地位。德国拥有24个数据集,反映了其强大的汽车工业和对自动驾驶技术推动的影响。中国紧随其后,拥有16个数据集,表明中国在这一领域的兴趣和投资。另一个值得注意的点是,全球范围内有11个数据集,欧洲地区(不包括德国)有24个数据集。这种多样化的区域分布增强了收集到的数据的稳健性,并突显了研究界和工业界的国际合作和努力。

另一方面,尽管较小的部分代表了包括加拿大、韩国、英国、日本和新加坡在内的其他国家,这些国家都是拥有坚实技术背景和积累的发达国家——这一统计数据反映了极端的地区偏见。美国、西欧和东亚的主导地位导致了自动驾驶系统在这些地区典型的环境条件下过度拟合的偏见。这种偏见可能导致自动驾驶车辆在各种或未知的地区和情况下无法正常运行。因此,引入来自更广泛国家和地区的数据,如非洲,可以促进自动驾驶车辆的全面发展。

此外,由CARLA 等仿真器生成的35个合成数据集占18.32%。由于实际驾驶环境录制的局限性,这些合成数据集克服了这些缺点,对于开发更强大和可靠的驾驶系统至关重要。

感知数据集的时间趋势

在图10中,作者介绍了从2007年到2023年(截至本文撰写时)具有前50影响分数的感知数据集的时间趋势概览。这些数据集根据它们的数据来源领域进行了颜色编码,并且合成数据集用红色外框标注,清晰地展示了朝着多样化数据收集策略的进展。一个明显的趋势显示了多年来数据集的数量和种类的增加,表明随着自动驾驶领域的不断发展,需要高质量数据集。

总体而言,由于自动驾驶汽车有效而准确地感知周围环境的能力的重要性,大多数数据集提供了来自装备在自车上的传感器的感知视角(车载)。另一方面,由于实际世界数据成本高昂,一些研究人员提出了高影响力的合成数据集,如VirtualKITTI (2016年),以减轻对实际数据的依赖。在仿真器的有效性的推动下,近年来发布了许多新颖的合成数据集。在时间线上,像DAIR-V2X (2021年)这样的V2X数据集也呈现出向合作驾驶系统的趋势。此外,由于无人机提供的非遮挡视角,基于无人机的数据集,如2018年发布的UAVDT ,在推动感知系统方面发挥着关键作用。

数据分布

在图14中介绍了这些数据集每帧目标数量的情况。值得注意的是,Waymo  展示了大量帧数少于50个目标的情况,同时在图表中占据了广泛的位置,说明了它在每帧中从低到高的目标密度涵盖了各种场景。相反,KITTI  展示了一个更为受限的分布和有限的数据规模。Argoverse 2  具有大量帧数的高目标计数,其峰值约为70,这表明了它在一般情况下复杂的环境表示。对于 ONCE ,其目标密度均匀地分布在支持的感知范围内。像 nuScenes  和 ZOD  这样的数据集展示了类似的曲线,快速上升然后缓慢下降,暗示了环境复杂性的适度水平,每帧中目标数量具有相当的可变性。

除了场景中目标数量之外,基于与自车的距离的目标分布是揭示数据集的多样性和显著差异的另一个重要点,如下图15所示。Waymo 数据集展示了大量标注目标在近场到中场场景中。相反,Argoverse 2 和 ZOD 展示了更宽的检测范围,有些帧甚至包括超过200米的边界框。nuScenes 的曲线意味着它在较短范围内的目标非常丰富,这在城市驾驶场景中是典型的。然而,随着距离的增加,nuScenes 数据集的目标数量迅速减少。ONCE 数据集覆盖了目标在不同距离上更均匀的分布,而KITTI 数据集更注重近距离检测。

讨论与未来工作

本文主要关注分析现有数据集,这些数据集通常包含丰富的视觉数据,并旨在完成模块化pipeline中的任务。然而,随着技术的迅速发展,尤其是大语言模型的出色性能,下一代自动驾驶数据集出现了许多新的趋势,提出了新的挑战和需求。

端到端驾驶数据集。与模块化设计的自动驾驶pipeline相比,端到端架构简化了整体设计过程并减少了集成复杂性。UniAD  的成功验证了端到端模型的潜在能力。然而,端到端自动驾驶的数据集数量有限 。因此,引入专注于端到端驾驶的数据集对推动自动驾驶车辆的发展至关重要。另一方面,在数据引擎中实施自动标注pipeline可以显著促进端到端驾驶框架和数据的开发 。

自动驾驶数据集中引入语言。视觉语言模型(VLMs)最近在许多领域取得了令人印象深刻的进展。其在为视觉任务提供语言信息方面的固有优势使得自动驾驶系统更具解释性和可靠性。强调了多模式大语言模型在各种自动驾驶任务中的重要作用,例如感知 ,运动规划 和控制 。下面表 VII 中展示了包含语言标签的自动驾驶数据集。总体而言,将语言纳入自动驾驶数据集是未来数据集发展的趋势。

通过VLMs生成数据。正如所提到的,VLMs的强大能力可以用于生成自动驾驶数据。例如,DriveGAN  通过在没有监督的情况下解开不同组件来生成高质量的自动驾驶数据。此外,由于世界模型理解驾驶环境的能力,一些工作探索了使用世界模型生成高质量驾驶视频。DriveDreamer  作为从真实场景中派生的先驱性工作,解决了游戏环境或仿真设置的局限性。

域自适应。域自适应是开发自动驾驶车辆时面临的关键挑战 ,它指的是在一个数据集(源域)上训练的模型在另一个数据集(目标域)上能够稳定执行的能力。这个挑战表现在多个方面,如环境条件的多样性 、传感器设置  或从合成到真实的转换 。

结论

本文对200多个现有的自动驾驶数据集进行了详尽而系统的回顾和分析。从传感器类型和模态、感知领域以及与自动驾驶数据集相关的任务开始。引入了一个称为"影响分数"的新型评估指标,以验证感知数据集的影响力和重要性。随后,展示了几个高影响力数据集,涉及感知、预测、规划、控制和端到端自动驾驶。此外,解释了自动驾驶数据集的标注方法,并调查了影响标注质量的因素。

此外,描述了收集到的数据集的年代和地理分布,为理解当前自动驾驶数据集的发展提供了全面的视角。同时,研究了几个数据集的数据分布,为理解不同数据集之间的差异提供了一个具体的观点。最后,讨论了下一代自动驾驶数据集的发展和趋势。

来源:自动驾驶之心内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯