原Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?
论文链接:https://arxiv.org/abs/2312.03031
代码链接:https://github.com/NVlabs/BEV-Planner
作者单位:南京大学 NVIDIA
论文思路:
端到端自动驾驶最近作为一个有前景的研究方向浮现出来,以全栈视角为目标寻求自动化。沿这条线,许多最新的工作遵循开环评估设置在 nuScenes 上研究规划行为。本文通过进行彻底的分析并揭示更多细节中的难题,更深入地探讨了这个问题。本文最初观察到,以相对简单的驾驶场景为特征的 nuScenes 数据集,导致在整合了自车状态(ego status)的端到端模型中感知信息的利用不足,例如自车的速度。这些模型倾向于主要依赖自车状态进行未来路径规划。除了数据集的局限性之外,本文还注意到当前的指标并不能全面评估规划质量,这导致从现有基准中得出的结论可能存在偏见。为了解决这个问题,本文引入了一个新的指标来评估预测的轨迹是否遵循道路。本文进一步提出了一个简单的基线,能够在不依赖感知标注的情况下达到有竞争力的结果。鉴于现有基准和指标的局限性,本文建议学术界重新评估相关的主流研究,并谨慎考虑持续追求最先进技术是否会产生令人信服的普遍结论。
主要贡献:
现有基于 nuScenes 的开环自动驾驶模型的规划性能受到自车状态(ego status) (速度、加速度、偏航角)的高度影响。当自车状态(ego status) 参与进来,模型最终预测的轨迹基本上由它主导,导致对感知信息的使用减少。
现有的规划指标未能完全捕捉到模型的真实性能。模型的评估结果在不同指标之间可能会有显著差异。本文主张采用更多样化和全面的指标,以防止模型在特定指标上实现局部最优,这可能会导致忽视其他安全隐患。
与在现有的 nuScenes 数据集上推动最先进性能相比,本文认为开发更合适的数据集和指标代表了一个更为关键和紧迫的挑战。
论文设计:
端到端自动驾驶旨在以全栈方式共同考虑感知和规划[1, 5, 32, 35]。一个基本的动机是将自动驾驶车辆(AV)的感知作为达成目的(规划)的手段来评估,而不是过度拟合某些感知度量标准。
与感知不同,规划通常更加开放式且难以量化[6, 7]。理想情况下,规划的开放式特性将支持闭环评估设置,在该设置中,其他代理可以对自车的行为做出反应,原始传感器数据也可以相应地变化。然而,到目前为止,在闭环模拟器中进行代理行为建模和真实世界数据模拟[8, 19]仍然是具有挑战性的未解决问题。因此,闭环评估不可避免地引入了与现实世界相当大的域差距(domain gaps)。
另一方面,开环评估旨在将人类驾驶视为真实情况,并将规划表述为模仿学习[13]。这种表述允许通过简单的日志回放,直接使用现实世界的数据集,避免了来自模拟的域差距(domain gaps)。它还提供了其他优势,例如能够在复杂和多样的交通场景中训练和验证模型,这些场景在模拟中经常难以高保真度生成[5]。因为这些好处,一个已经建立的研究领域集中于使用现实世界数据集的开环端到端自动驾驶[2, 12, 13, 16, 43]。
目前流行的端到端自动驾驶方法[12, 13, 16, 43]通常使用 nuScenes[2] 来进行其规划行为的开环评估。例如,UniAD[13] 研究了不同感知任务模块对最终规划行为的影响。然而,ADMLP[45] 最近指出,一个简单的MLP网络也能仅依靠自车状态(ego status) 信息,就实现最先进的规划结果。这激发了本文提出一个重要问题:
开环端到端自动驾驶是否只需要自车状态(ego status) 信息?
本文的答案是肯定的也是否定的,这考虑到了在当前基准测试中使用自车状态(ego status) 信息的利弊:
是。自车状态(ego status) 中的信息,如速度、加速度和偏航角,显然应有利于规划任务的执行。为了验证这一点,本文解决了AD-MLP的一个公开问题,并移除了历史轨迹真实值(GTs)的使用,以防止潜在的标签泄露。本文复现的模型,Ego-MLP(图1 a.2),仅依赖自车状态(ego status) ,并且在现有的L2距离和碰撞率指标方面与最先进方法不相上下。另一个观察结果是,只有现有的方法[13, 16, 43],将自车状态(ego status) 信息纳入规划模块中,才能获得与 Ego-MLP 相当的结果。尽管这些方法采用了额外的感知信息(追踪、高清地图等),但它们并未显示出比 Ego-MLP 更优越。这些观察结果验证了自车状态(ego status) 在端到端自动驾驶开环评估中的主导作用。
不是。很明显,作为一个安全至关重要的应用,自动驾驶在决策时不应该仅仅依赖于自车状态(ego status) 。那么,为什么仅使用自车状态(ego status) 就能达到最先进规划结果的现象会发生呢?为了回答这个问题,本文提出了一套全面的分析,涵盖了现有的开环端到端自动驾驶方法。本文识别了现有研究中的主要缺陷,包括与数据集、评估指标和具体模型实现相关的方面。本文在本节的其余部分列举并详细说明了这些缺陷:
数据集不平衡。NuScenes 是一个常用的开环评估任务的基准[11–13, 16, 17, 43]。然而,本文的分析显示,73.9%的 nuScenes 数据涉及直线行驶的场景,如图2所示轨迹分布反映的那样。对于这些直线行驶的场景,大多数时候保持当前的速度、方向或转向率就足够了。因此,自车状态(ego status) 信息可以很容易地被作为一种捷径来适应规划任务,这导致了 Ego-MLP 在 nuScenes 上的强大性能。
现有的评估指标不全面。NuScenes 数据中剩余的26.1%涉及更具挑战性的驾驶场景,可能是规划行为更好的基准。然而,本文认为广泛使用的当前评估指标,如预测与规划真实值之间的L2距离以及自车与周围障碍物之间的碰撞率,并不能准确衡量模型规划行为的质量。通过可视化各种方法生成的众多预测轨迹,本文注意到一些高风险轨迹,如驶出道路可能在现有指标中不会受到严重惩罚。为了回应这一问题,本文引入了一种新的评估指标,用于计算预测轨迹与道路边界之间的交互率(interaction rate)。当专注于与道路边界的交汇率(intersection rates) 时,基准将经历一个实质性的转变。在这个新的评估指标下,Ego-MLP 倾向于预测出比 UniAD 更频繁偏离道路的轨迹。
自车状态(ego status)偏见与驾驶逻辑相矛盾。由于自车状态(ego status) 可能导致过拟合,本文进一步观察到一个有趣的现象。本文的实验结果表明,在某些情况下,从现有的端到端自动驾驶框架中完全移除视觉输入,并不会显著降低规划行为的质量。这与基本的驾驶逻辑相矛盾,因为感知被期望为规划提供有用的信息。例如,在 VAD [16] 中屏蔽所有摄像头输入会导致感知模块完全失效,但如果有自车状态(ego status) 的话,规划的退化却很小。然而,改变输入的自身速度可以显著影响最终预测的轨迹。
总之,本文推测,最近在端到端自动驾驶领域的努力及其在 nuScenes 上的最先进成绩很可能是由于过度依赖自车状态(ego status) ,再加上简单驾驶场景的主导地位所造成的。此外,当前的评估指标在全面评估模型预测轨迹的质量方面还不够。这些悬而未决的问题和不足可能低估了规划任务的潜在复杂性,并且造成了一种误导性的印象,那就是在开环端到端自动驾驶中,自车状态(ego status) 就是你所需要的一切。
当前开环端到端自动驾驶研究中自车状态(ego status) 的潜在干扰引出了另一个问题:是否可以通过从整个模型中移除自车状态(ego status) 来抵消这种影响?然而,值得注意的是,即使排除了自车状态(ego status) 的影响,基于 nuScenes 数据集的开环自动驾驶研究的可靠性仍然存疑。
图1。(a) AD-MLP 同时使用自车状态(ego status) 和过去轨迹的真实值作为输入。本文复现的版本(Ego-MLP)去掉了过去的轨迹。(b) 现有的端到端自动驾驶流程包括感知、预测和规划模块。自车状态(ego status) 可以集成到鸟瞰图(BEV)生成模块或规划模块中。(c) 本文设计了一个简单的基线以便与现有方法进行比较。这个简单的基线不利用感知或预测模块,而是直接基于 BEV 特征预测最终轨迹。
图2。(a) nuScenes 数据集中的自车轨迹热图。(b) nuScenes 数据集中的大多数场景由直行驾驶情况组成。
图3。当前方法[12, 13, 16]忽略了考虑自车的偏航角变化,始终保持0偏航角(由灰色车辆表示),从而导致假阴性(a)和假阳性(b)的碰撞检测事件增加。本文通过估计车辆轨迹的变化来估计车辆的偏航角(由红色车辆表示),以提高碰撞检测的准确性。
图4。本文展示了 VAD 模型(在其规划器中结合了自车状态(ego status) )在各种图像损坏情况下的预测轨迹。给定场景中的所有轨迹(跨越20秒)都在全局坐标系统中呈现。每个三角形标记代表自车的真实轨迹点,不同的颜色代表不同的时间步。值得注意的是,即使输入为空白图像,模型的预测轨迹仍保持合理性。然而,红色框内的轨迹是次优的,如图5中进一步阐述的。尽管对所有环视图像都进行了损坏处理,但为了便于可视化,只显示了初始时间步对应的前视图像。
图5。在开环自动驾驶方法中,从自车的起始位置预测未来轨迹。在模仿学习范式内,预测轨迹理想情况下应该与实际的真实轨迹密切对齐。此外,连续时间步预测的轨迹应保持一致性,从而保证驾驶策略的连续性和平滑性。因此,图4 中红色框显示的预测轨迹不仅偏离了真实轨迹,而且在不同的时间戳上显示出显著的分歧。
图6。对于在其规划器中结合了自车状态(ego status) 的基于VAD的模型,本文在视觉输入保持恒定的情况下,向自车速度引入噪声。值得注意的是,当自车的速度数据被扰动时,结果轨迹显示出显著的变化。将车辆的速度设置为零会导致静止的预测,而速度为100米/秒会导致预测出不切实际的轨迹。这表明,尽管感知模块继续提供准确的周围信息,模型的决策过程过分依赖于自车状态(ego status) 。
图7。BEVFormer在 BEV查询的初始化过程中结合了自车状态(ego status) 信息,这是当前端到端自动驾驶方法[13, 16, 43]未曾涉及的细节。
图8。在 BEV-Planner++ 中引入自车状态(ego status) 信息使得模型能够非常快速地收敛。
图9。比较本文基线的 BEV特征与相应的场景。
实验结果:
论文总结:
本文深入分析了当前开环端到端自动驾驶方法固有的缺点。本文的目标是贡献研究成果,促进端到端自动驾驶的逐步发展。
引用:
Li Z, Yu Z, Lan S, et al. Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?[J]. arXiv preprint arXiv:2312.03031, 2023.