1.背景意义
世界模型(World Models)由于其理解环境、和环境交互的能力,正在自动驾驶领域引起广泛关注。世界模型具有生成高质量驾驶视频和用于端到端驾驶的巨大潜力。然而,目前在自动驾驶领域的世界模型研究主要关注游戏环境或模拟环境,缺乏对真实世界驾驶情景的表现。因此,我们引入了DriveDreamer,这是一个完全源自真实世界驾驶情境的开创性世界模型。考虑到在复杂驾驶场景中对世界进行建模涉及庞大的搜索空间,我们提出使用强大的扩散模型来构建对复杂环境的表征。此外,我们引入了一个两阶段的训练流程。在初始阶段,DriveDreamer获得了对结构化交通约束的深刻理解,而随后的阶段则赋予了它预测未来状态的能力。所提出的DriveDreamer是首个建立在真实世界驾驶情境之上的世界模型。我们在具有挑战性的nuScenes基准上实例化了DriveDreamer,并进行了大量实验,验证了DriveDreamer能够实现精确可控的视频生成,忠实地捕捉了真实世界交通情景的结构约束。此外,DriveDreamer使得生成逼真和合理的驾驶策略成为可能,为互动和实际应用开辟了途径。
图1. 所提出的DriveDreamer展示了对自动驾驶场景的全面理解。它在可控驾驶视频生成方面表现出色,能够与文本提示和结构化交通约束完美配合。DriveDreamer还可以与驾驶场景互动,并根据输入的驾驶动作预测不同的未来驾驶视频。此外,DriveDreamer还扩展了其实用性,可以预测未来的驾驶动作。
2. 相关工作
2.1 扩散模型(Diffusion Models)
扩散模型代表了一类概率生成模型的家族,它们逐渐引入噪声到数据中,随后学习逆转这一过程,以生成样本。这些模型最近引起了广泛关注,因为它们在各种应用中表现出卓越性能,为图像合成、视频生成和三维内容生成设定了新的基准。ControlNet、GLIGEN、T2I-Adapter和Composer等文章进一步引入了额外的学习参数来增强可控生成能力。它们利用了各种控制输入,包括深度图、分割图、Canny边缘和草图。同时,BEVControl和CityDreamer加入了布局条件来增强图像生成。基于扩散的生成模型的基本本质在于它们理解和理解世界的复杂性。借助这些扩散模型的力量,DriveDreamer旨在理解复杂的自动驾驶场景。
2.2 Video Generation
视频生成和视频预测是理解视觉世界的有效方法。在视频生成领域,已经采用了几种标准架构,包括变分自编码器(VAEs)、自回归模型、基于流的模型和生成对抗网络(GANs)。最近,新兴的扩散模型也已扩展到视频生成领域,展示了更高质量的视频生成能力,能够生成逼真的帧和帧之间的连续过渡,同时提供可控的视频生成能力。视频预测模型代表了视频生成模型的一种专门形式,它们共享许多相似之处。具体而言,视频预测涉及根据历史视频观察来预测未来视频变化。DriveGAN通过指定未来的驾驶策略,建立了驾驶动作和像素之间的关联,从而预测未来的驾驶视频。相比之下,DriveDreamer将结构化交通条件、文本提示和驾驶动作作为输入,实现了与真实世界驾驶情景紧密对齐的精确、逼真的视频和动作生成。
2.3 World Models
世界模型已在基于模型的模仿学习中得到广泛探讨,并在各种应用中取得了显著的成功。这些方法通常利用VAE和LSTM来建模转换动态和渲染功能。世界模型的目标是建立环境的动态模型,使代理能够对未来有预测能力。在自动驾驶领域,这一方面至关重要,因为对未来的精确预测对安全操控至关重要。然而,在自动驾驶中构建世界模型面临着独特的挑战,主要是由于真实世界驾驶任务中固有的高样本复杂性。为了解决这些问题,ISO-Dream引入了对视觉动态的明确解缠分为可控状态和不可控状态。MILE 将世界建模融入BEV语义分割空间中,通过模仿学习增强了世界建模。SEM2 将Dreamer框架扩展到BEV分割图中,采用强化学习进行训练。尽管在世界模型方面取得了进展,但相关研究的一个关键局限性在于其主要关注模拟仿真环境。转向真实世界驾驶情景仍然是一个未充分探索的领域。
3. DriveDremear方法设计
DriveDreamer的总体框架如下图所示。框架始于初始参考帧及其对应的道路结构信息(即HDMap和3D框)。DriveDreamer利用提出的ActionFormer来在潜在空间中预测即将到来的道路结构特征。这些预测的特征作为条件提供给Auto-DM,后者生成未来的驾驶视频。同时,利用文本提示允许对驾驶情景风格进行动态调整(例如,天气和时间)。此外,DriveDreamer还结合了历史行动信息和从Auto-DM中提取的多尺度潜在特征,这些特征组合在一起生成合理的未来驾驶动作。
图2. DriveDreamer框架图
DriveDreamer集成了多模态输入,以生成未来的驾驶视频和驾驶策略,从而提升了自动驾驶系统的能力。关于在真实世界驾驶情景中建立世界模型的庞大搜索空间,我们引入了DriveDreamer的两阶段训练策略。这个策略旨在显著提高采样效率并加速模型的收敛速度。两阶段训练如下图所示。在第一阶段训练中有两个步骤。第一步涉及使用单帧结构化条件,引导DriveDreamer生成驾驶场景图像,促进其理解结构性交通约束。第二步将其理解扩展到视频生成。利用交通结构条件,DriveDreamer输出驾驶场景视频,进一步增强了其对运动过渡的理解。在第二阶段,训练的重点是使DriveDreamer能够与环境互动并有效地预测未来状态。这个阶段将初始帧图像及其对应的结构化信息作为输入。同时,提供了顺序驾驶动作,模型被期望生成未来的驾驶视频和未来的驾驶动作。这种互动赋予了DriveDreamer预测和操控未来驾驶情景的能力。在接下来的章节中,我们将深入探讨模型架构和训练流程的具体细节。
图3. 两阶段训练流程图
3.1 一阶段训练
在DriveDreamer中,我们引入了Auto-DM,用于从真实世界驾驶视频中建模和理解驾驶情景。值得注意的是,仅从像素空间理解驾驶场景在真实世界驾驶情景中存在挑战,因为搜索空间非常广泛。为了缓解这一问题,我们明确地将结构化交通信息作为条件输入。Auto-DM的总体结构如下图所示,结构化交通条件被投影到图像平面上,生成HDMap条件,以及3D框条件,还有框的类别。为了实现可控性,HDMap条件被2D卷积编码后与由前向扩散过程生成的嘈杂的潜在特征进行串联处理。对于3D框条件,我们利用Gated Self-attention(参考GLIGEN)进行控制条件的嵌入。为了进一步增强Auto-DM对驾驶动态的理解能力,我们引入了Temporal-attention,这些层增强了生成的驾驶视频中的帧的连贯性:首先,我们将视觉信号从N×C×H×W重塑为RC×NHW的形状。这种形状变换有助于后续的自注意力层学习帧间的动态关系。此外,还使用了Cross-attention来促进文本输入和视觉信号之间的特征交互,使文本描述能够影响驾驶场景属性,如天气和时间。
图4. Auto-DM框架图
3.2 二阶段训练
目前一阶段的Auto-DM可以基于序列结构信息生成驾驶视频。然而,在视频预测任务中,超过当前时间戳的未来交通结构条件是不可用的。为了解决这个挑战,我们在第二阶段的训练中引入了ActionFormer,它利用驾驶动作来迭代预测未来的结构条件。ActionFormer的总体架构如下图所示。首先,初始结构条件被编码并展平为1D特征。该特征特征通过自注意力和MLP层进行串联和汇总,生成隐藏状态h0。随后,利用交叉注意力层构建了隐藏状态和驾驶动作之间的关联。为了预测未来的隐藏状态,我们使用门控循环单元(GRUs)进行迭代更新:这些隐藏状态与动作特征进行串联,然后被解码为未来的交通结构条件。值得注意的是,ActionFormer在特征级别预测未来的交通结构条件,这有助于减轻像素级别的噪音干扰,从而产生更鲁棒的预测。除了ActionFormer生成的交通结构条件和文本提示条件外,我们参考Video-LDM处理初始的图像观测。最后,我们将得到的交通结构化条件、初始帧图像条件、以及文本条件一起作为Auto-DM的输入。在二阶段训练中,视频预测和动作预测部分可以被建模为高斯分布和拉普拉斯分布。因此,我们使用均方差误差和L1损失来优化视频预测的训练。对于驾驶策略的预测,我们首先从Auto-DM中池化多尺度UNet特征。然后,将这些特征与历史动作特征串联在一起,然后通过MLP层解码生成未来的驾驶动作。基于这两阶段的训练,DriveDreamer已经获得了对驾驶世界的全面理解,包括交通结构的结构约束、未来驾驶状态的预测以及与已建立的世界模型进行互动。
图5. ActionFormer结构图
4. 实验结果
4.1 可控视频生成
如图6所示,DriveDreamer在生成各种各样严格遵循结构化交通条件(包括HD地图和3D框等元素)的驾驶场景视频方面表现出效果。重要的是,我们还可以操控文本提示来诱发生成视频的变化,包括天气和一天中时间的变化。这种增强的适应性显著提高了生成视频输出的多样性。除了利用结构化交通条件生成驾驶视频外,DriveDreamer还具备通过适应不同驾驶动作来增加生成的驾驶视频多样性的能力。如图7所示,从初始帧及其对应的结构信息开始,DriveDreamer可以基于各种驾驶动作生成不同的视频,例如显示左转和右转的视频。总之,DriveDreamer在生成广泛范围的驾驶场景视频方面表现出色,具有高度可控性和多样性。因此,DriveDreamer在培训自动驾驶系统上具有巨大潜力,涵盖了各种任务,甚至包括边际情况和长尾场景。为了量化我们的两阶段训练方法的优势,我们提供了定量评估(如表1所示),与DriveGAN相比,我们的方法在没有第一阶段训练的情况下获得了更高的FID和FVD分数。此外,我们的研究结果表明,经过第一阶段训练后的DriveDreamer表现出对驾驶场景中的结构化信息的理解能力提高,从而生成更高质量的视频。最后,我们观察到,所提出的ActionFormer有效地利用了第一阶段训练期间获得的交通结构信息知识。进一步提高了生成视频的质量。
图6. 使用结构化交通条件(HDMap和3D框)生成驾驶视频,其中利用文本提示来调整驾驶情景的风格(例如,天气和时间)。
图7. 基于驾驶策略生成未来驾驶视频,不同的驾驶动作(例如,左转,右转)可以产生相应的驾驶视频。
表1. 在nuScenes验证集上的视频生成性能评测。
4.2 驾驶策略生成
除了生成可控的驾驶视频外,DriveDreamer还展示了预测合理驾驶动作的能力。如图8所示,给定初始帧条件和过去的驾驶动作,DriveDreamer可以生成与真实世界情景相符的未来驾驶动作。与相应的实际视频进行的生成动作的比较分析表明,即使在复杂情况下,如十字路口、遵守交通信号灯和执行转弯,DriveDreamer仍然能够一致地预测合理的驾驶动作。此外,我们进行了预测准确性的定量评估。在nuScenes数据集上进行的开环评估结果如表2所示。值得注意的是,仅使用历史驾驶动作作为输入,DriveDreamer在预测未来驾驶动作方面实现了高准确性。偏航角的平均预测误差仅为0.49°,速度预测误差仅为0.15 m/s。此外,通过将多尺度UNet特征与历史驾驶动作结合使用,我们进一步提高了预测准确性。需要注意的是,开环评估具有固有的限制,限制了驾驶动作预测的上限。因此,我们未来的工作将集中在闭环评估上,以进一步验证和增强DriveDreamer的性能。
图8. 预测未来驾驶动作的可视化,以及相应的实际驾驶视频。
表2.在nuScenes验证集上的驾驶策略预测性能评测。
5. 总结和展望
DriveDreamer代表了在自动驾驶领域中世界模型的重要探索,通过专注于真实世界的驾驶情境,并利用扩散模型的能力,DriveDreamer展示了其理解复杂环境、生成高质量驾驶视频和预测驾驶策略的能力。未来的工作将包括使用由DriveDreamer生成的数据来训练驾驶的foundation model。此外,我们计划扩展DriveDreamer的能力,以进行长时间和高分辨率的视频生成。此外,我们打算在闭环场景中评估DriveDreamer。这些努力将共同有助于增强世界建模在自动驾驶应用中的实用性。
原文链接:https://mp.weixin.qq.com/s/igon7SWjxqVL_gjGNm0H8A