原SIMPL: A Simple and Efficient Multi-agent Motion Prediction Baseline for Autonomous Driving
论文链接:https://arxiv.org/pdf/2402.02519.pdf
代码链接:https://github.com/HKUST-Aerial-Robotics/SIMPL
作者单位:香港科技大学 大疆
论文思路:
本文提出了一种用于自动驾驶车辆的简单高效的运动预测基线(SIMPL)。与传统的以代理为中心(agent-centric) 的方法(精度高但需要重复计算)和以场景为中心(scene-centric) 的方法(精度和通用性受到影响)不同,SIMPL 可以为所有相关交通参与者提供实时、准确的运动预测。为了提高准确性和推理速度,本文提出了一种紧凑而高效的全局特征融合模块,该模块以对称方式执行定向消息传递,使网络能够在单次前馈传递中预测所有道路使用者的未来运动,并减轻视点移动导致的精度损失。此外,本文研究了在轨迹解码中使用 Bernstein basis polynomials 进行连续轨迹参数化,允许在任何所需时间点评估状态及其高阶导数,这对于下游规划任务很有价值。作为强大的基线,与其他最先进的方法相比,SIMPL 在 Argoverse 1 和 2 运动预测基准上表现出极具竞争力的性能。此外,其轻量级设计和低推理延迟使 SIMPL 具有高度可扩展性,并有望用于现实世界的机载部署。
网络设计:
周围交通参与者的运动预测对于自动驾驶汽车至关重要,尤其是下游决策和规划模块,因为准确及时的意图和轨迹预测将显着提高安全性和乘坐舒适性。
对于基于学习的运动预测,最重要的主题之一是上下文表示。早期的方法通常将周围场景表示为多通道鸟瞰图像 [1]–[4]。相比之下,最近的研究越来越多地采用矢量化场景表示[5]-[13],其中使用带有地理坐标的点集或多段线(polylines) 来标注位置和几何形状,从而提高保真度并扩大感受野。然而,对于光栅化和矢量化表示,都存在一个关键问题:我们应该如何为所有这些元素选择合适的参考系?一种直接的方法是描述共享坐标系(以场景为中心)内的所有实例,例如以自动驾驶车辆为中心的坐标系,并直接使用坐标作为输入特征。这使我们能够在一次前馈传递中对多个目标代理进行预测 [8, 14]。然而,使用全局坐标作为输入,通常会在单个前馈传递中对多个目标代理进行预测 [8, 14]。然而,使用全局坐标作为输入(通常会在很大范围内变化)将大大加剧任务的固有复杂性,导致网络性能下降和对新场景的适应性有限。为了提高准确性和鲁棒性,一种常见的解决方案是根据目标代理的当前状态对场景上下文进行归一化处理 [5, 7, 10]-[13](以代理为中心)。这意味着必须对每个目标代理重复执行归一化过程和特征编码,从而获得更好的性能,但代价是冗余计算。因此,有必要探索一种能够有效地编码多个目标的特征,同时保持对视角(perspective) 变化的鲁棒性的方法。
对于运动预测的下游模块,例如决策和运动规划,不仅需要考虑未来位置,还需要考虑航向、速度和其他高阶导数。例如,周围车辆的预测航向在塑造未来时空占用方面发挥着关键作用,这是确保安全和稳健的运动规划的关键因素[15, 16]。此外,在不遵守物理约束的情况下独立预测高阶量可能会导致预测结果不一致[17, 18]。例如,尽管速度为零,但它可能会产生位置位移,从而导致规划模块混乱。
本文提出了用于自动驾驶系统的 SIMPL(简单高效的运动预测基线),解决了现实车载应用中多智能体轨迹预测的关键问题。首先,本文引入以实例为中心的场景表示,然后引入 symmetric fusion Transformer(SFT),从而能够在单次前馈传递中对所有代理进行有效的轨迹预测,同时保留视点不变属性带来的准确性和鲁棒性。与最近基于对称上下文融合的其他工作[19]-[21]相比,所提出的SFT明显更简单、更轻量级且更易于实现,使其适合机载部署。
其次,本文引入了一种基于 Bernstein basis polynomial(也称为 Bezier curve)的预测轨迹的新颖参数化方法。这种连续表示确保了平滑性,并能够在任何给定时间点轻松评估精确状态及其高阶导数。本文的实证研究表明,与估计 monomial basis polynomials 的系数相比,学习预测 Bezier curves 的控制点更加有效且数值稳定。
最后,所提出的组件被很好地集成到一个简单而高效的模型中。本文在两个大型运动预测数据集上评估了所提出的方法[22, 23],实验结果表明,尽管 SIMPL 具有简化的设计,但与其他最先进的方法相比仍具有很强的竞争力。更重要的是,SIMPL通过较少的可学习参数和较低的推理延迟实现了高效的多智能体轨迹预测,而没有牺牲量化性能,这对于真实世界的机载部署来说是充满希望的。本文还强调,作为一个强大的基线,SIMPL 具有出色的可扩展性。简洁的架构便于与最新的运动预测进展直接整合,为进一步提高整体性能提供了机会。
图 1:复杂驾驶场景中多智能体运动预测的图示。本文的方法能够实时地同时为所有相关代理生成合理的假设。自车和其他车辆分别以红色和蓝色显示。根据时间戳使用渐变颜色来可视化预测轨迹。请参考附带的视频了解更多示例。
图 2:SIMPL 示意图。本文利用尽可能简单的网络架构来证明其有效性。语义实例的局部特征由简单的编码器处理,而实例间特征则保留在相对位置嵌入中。多模态轨迹预测结果由运动解码器在提出的 symmetric feature Transformer 之后生成。
图 3:相对位姿计算示意图。
图 4:所提出的 L 层 symmetric fusion Transformer (SFT) 的图示。实例 tokens 和相对位置嵌入(RPE)在每个SFT层中都会循环更新。
图 5:2D septic Bezier curve(左)。
实验结果:
总结:
本文提出了一种简单高效的自动驾驶多智能体运动预测基线。利用所提出的 symmetric fusion Transformer,所提出的方法实现了高效的全局特征融合,并保持了针对视点移动的鲁棒性。基于 Bernstein basis polynomials 的连续轨迹参数化提供了与下游模块更高的兼容性。在大规模公共数据集上的实验结果表明,SIMPL 在模型大小和推理速度方面更具优势,同时获得与其他最先进方法相同水平的精度。
引用:
Zhang L, Li P, Liu S, et al. SIMPL: A Simple and Efficient Multi-agent Motion Prediction Baseline for Autonomous Driving[J]. arXiv preprint arXiv:2402.02519, 2024.