完全地理解这个世界是世界模型要干的事！2024自动驾驶世界模型大观~-编程学习网

何谓世界模型？

“整体上来说，完全地理解这个世界是世界模型要干的事。”——任少卿在接受采访中说到。

那么何谓世界模型呢？按照最初wayve展示的demo，世界模型依赖实车采集的海量数据，基于生成模型去生成未来场景来和真实的未来时刻数据，进而进行监督，这是典型的无监督训练。其最巧妙的地方则在于要想成功预测未来时刻的场景，你必须对现在时刻场景的语义信息以及世界演化的规律有着深刻的了解。当下自动驾驶方向的世界模型可以分成两大类：生成式和端到端。今天自动驾驶之心就和大家一起盘点一下今年以来这方面的工作，文末总结！

RenderWorld: World Model with Self-Supervised 3D Label

论文链接：https://arxiv.org/abs/2409.11356v1

上海科技大学的工作：仅使用视觉的端到端自动驾驶不仅比LiDAR视觉融合更具成本效益，而且比传统方法更可靠。为了实现经济且稳健的纯视觉自动驾驶系统，我们提出了RenderWorld，这是一种仅支持视觉的端到端自动驾驶框架，它使用基于自监督高斯的Img2Occ模块生成3D占用标签，然后通过AM-VAE对标签进行编码，并使用世界模型进行预测和规划。RenderWorld采用高斯散射来表示3D场景和渲染2D图像，与基于NeRF的方法相比，大大提高了分割精度并降低了GPU内存消耗。通过应用AM-VAE分别对空气和非空气进行编码，RenderWorld实现了更细粒度的场景元素表示，从而在自回归世界模型的4D占用预测和运动规划方面取得了最先进的性能。

OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving

论文链接：https://arxiv.org/abs/2409.03272v1

复旦和清华等团队的工作：多模态大语言模型（MLLM）的兴起刺激了它们在自动驾驶中的应用。最近基于MLLM的方法通过学习从感知到行动的直接映射来实现最终控制，忽略了世界的动态以及行动与世界动态之间的关系。相比之下，人类拥有世界模型，使他们能够基于3D内部视觉表示来模拟未来的状态，并相应地计划行动。为此，我们提出了OccLLaMA，这是一种占用语言动作生成世界模型，它使用语义占用作为一般的视觉表示，并通过自回归模型统一视觉语言动作（VLA）模式。具体来说，我们引入了一种新的类似VQVAE的场景标记器，以有效地离散和重建语义占用场景，同时考虑到其稀疏性和类不平衡性。然后，我们为视觉、语言和动作构建了一个统一的多模态词汇表。此外，我们增强了LLM，特别是LLaMA，以对统一词汇表执行下一个令牌/场景预测，从而完成自动驾驶中的多项任务。大量实验表明，OccLLaMA在多个任务中都取得了具有竞争力的性能，包括4D占用预测、运动规划和视觉问答，展示了其作为自动驾驶基础模型的潜力。

Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models

论文链接：https://arxiv.org/abs/2409.16663v2

英伟达的工作：我们建议使用潜在空间生成世界模型来解决自动驾驶中的协变量转换问题。世界模型是一种神经网络，能够根据过去的状态和动作预测代理的下一个状态。通过在训练过程中利用世界模型，驾驶策略有效地缓解了协变量变化，而不需要过多的训练数据。在端到端训练期间，我们的策略通过与人类演示中观察到的状态对齐来学习如何从错误中恢复，以便在运行时可以从训练分布之外的扰动中恢复。此外我们介绍了一种基于Transformer的感知编码器，该编码器采用多视图交叉注意力和学习场景查询。我们呈现了定性和定量结果，展示了在CARLA模拟器闭环测试方面对现有技术的显著改进，并展示了CARLA和NVIDIA DRIVE Sim处理扰动的能力。

Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving

论文链接：https://arxiv.org/abs/2408.14197v1

浙大&华为团队的工作：世界模型基于各种自车行为设想了潜在的未来状态。它们嵌入了关于驾驶环境的广泛知识，促进了安全和可扩展的自动驾驶。大多数现有方法主要关注数据生成或世界模型的预训练范式。与上述先前的工作不同，我们提出了Drive OccWorld，它将以视觉为中心的4D预测世界模型应用于自动驾驶的端到端规划。具体来说，我们首先在内存模块中引入语义和运动条件规范化，该模块从历史BEV嵌入中积累语义和动态信息。然后将这些BEV特征传送到世界解码器，以进行未来的占用和流量预测，同时考虑几何和时空建模。此外，我们建议在世界模型中注入灵活的动作条件，如速度、转向角、轨迹和命令，以实现可控生成，并促进更广泛的下游应用。此外，我们探索将4D世界模型的生成能力与端到端规划相结合，从而能够使用基于占用的成本函数对未来状态进行连续预测并选择最佳轨迹。对nuScenes数据集的广泛实验表明，我们的方法可以生成合理可控的4D占用率，为推动世界生成和端到端规划开辟了新途径。

BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space

论文链接：https://arxiv.org/abs/2407.05679v2
开源链接：https://github.com/zympsyche/BevWorld

百度的工作：世界模型因其预测潜在未来情景的能力而在自动驾驶领域受到越来越多的关注。在本文中，我们提出了BEVWorld，这是一种将多模态传感器输入标记为统一紧凑的鸟瞰图（BEV）潜在空间以进行环境建模的新方法。世界模型由两部分组成：多模态标记器和潜在BEV序列扩散模型。多模态标记器首先对多模态信息进行编码，解码器能够以自监督的方式通过光线投射渲染将潜在的BEV标记重建为LiDAR和图像观测。然后，潜在的BEV序列扩散模型在给定动作标记作为条件的情况下预测未来的情景。实验证明了BEVWorld在自动驾驶任务中的有效性，展示了其生成未来场景的能力，并使感知和运动预测等下游任务受益。

Planning with Adaptive World Models for Autonomous Driving

论文链接：https://arxiv.org/abs/2406.10714v2
项目主页：https://arunbalajeev.github.io/world_models_planning/world_model_paper.html

卡内基梅隆大学的工作：运动规划对于复杂城市环境中的安全导航至关重要。从历史上看，运动规划器（MP）已经用程序生成的模拟器（如CARLA）进行了评估。然而，这种合成基准并不能捕捉到现实世界中的多智能体交互。nuPlan是最近发布的MP基准测试，它通过用闭环仿真逻辑增强现实世界的驾驶日志来解决这一局限性，有效地将固定数据集转化为反应式模拟器。我们分析了nuPlan记录日志的特征，发现每个城市都有自己独特的驾驶行为，这表明稳健的规划者必须适应不同的环境。我们学习使用BehaviorNet对这种独特的行为进行建模，BehaviorNet是一种图卷积神经网络（GCNN），它使用最近观察到的代理历史中得出的特征来预测反应性代理行为；直觉上，一些激进的特工可能会尾随领先的车辆，而另一些则可能不会。为了模拟这种现象，BehaviorNet预测代理运动控制器的参数，而不是直接预测其时空轨迹（就像大多数预测者那样）。最后，我们提出了AdaptiveDriver，这是一种基于模型预测控制（MPC）的规划器，可以展开基于BehaviorNet预测的不同世界模型。我们广泛的实验表明，AdaptiveDriver在nuPlan闭环规划基准上取得了最先进的结果，在Test-14 Hard R-CLS上比之前的工作提高了2%，即使在从未见过的城市进行评估时也具有普遍性。

Enhancing End-to-End Autonomous Driving with Latent World Model

论文链接：https://arxiv.org/abs/2406.08481v1

中科院和中科院自动化研究所等团队的工作：端到端自动驾驶引起了广泛关注。当前的端到端方法在很大程度上依赖于感知任务的监督，如检测、跟踪和地图分割，以帮助学习场景表示。然而，这些方法需要大量的标注，阻碍了数据的可扩展性。为了应对这一挑战，我们提出了一种新的自监督方法来增强端到端的驱动，而不需要昂贵的标签。具体来说，我们的框架LAW使用LAtent World model，根据预测的自车行为和当前框架的潜在特征来预测未来的潜在特征。预测的潜在特征由未来实际观察到的特征进行监督。这种监督联合优化了潜在特征学习和动作预测，大大提高了驾驶性能。因此，我们的方法在开环和闭环基准测试中都实现了最先进的性能，而无需昂贵的标注。

Probing Multimodal LLMs as World Models for Driving

论文链接：https://arxiv.org/abs/2405.05956v1
开源链接：https://github.com/sreeramsa/DriveSim

MIT等团队的工作：我们冷静地看待了多模态大语言模型（MLLM）在自动驾驶领域的应用，并挑战/验证了一些常见的假设，重点是它们在闭环控制环境中通过图像/帧序列推理和解释动态驾驶场景的能力。尽管GPT-4V等MLLM取得了重大进展，但它们在复杂、动态驾驶环境中的性能在很大程度上仍未经过测试，这是一个广泛的探索领域。我们进行了一项全面的实验研究，从固定车载摄像头的角度评估各种MLLM作为世界驾驶模型的能力。我们的研究结果表明，虽然这些模型能够熟练地解释单个图像，但它们在跨描述动态行为的框架合成连贯的叙事或逻辑序列方面存在很大困难。实验表明，在预测（i）基本车辆动力学（前进/后退、加速/减速、右转或左转）、（ii）与其他道路参与者的相互作用（例如，识别超速行驶的汽车或繁忙的交通）、（iii）轨迹规划和（iv）开放集动态场景推理方面存在相当大的不准确性，这表明模型训练数据中存在偏差。为了实现这项实验研究，我们引入了一个专门的模拟器DriveSim，旨在生成各种驾驶场景，为评估驾驶领域的MLLM提供平台。此外，我们还贡献了完整的开源代码和一个新的数据集“Eval LLM Drive”，用于评估驾驶中的MLLM。我们的研究结果突显了当前最先进MLLM能力的一个关键差距，强调了增强基础模型的必要性，以提高其在现实世界动态环境中的适用性。

OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving

论文链接：https://arxiv.org/abs/2405.20337
开源链接：https://github.com/wzzheng/OccSora

北航&UC Berkeley等团队的工作：了解3D场景的演变对于有效的自动驾驶非常重要。虽然传统方法将场景开发与单个实例的运动相结合，但世界模型作为一个生成框架出现，用于描述一般的场景动态。然而大多数现有方法采用自回归框架来执行下一个令牌预测，这在建模长期时间演化方面效率低下。为了解决这个问题，我们提出了一种基于扩散的4D占用生成模型OccSora，来模拟自动驾驶3D世界的发展。我们采用4D场景标记器来获得4D占用输入的紧凑离散时空表示，并实现长序列占用视频的高质量重建。然后，我们学习时空表示上的扩散Transformer，并根据轨迹提示生成4D占用率。我们对广泛使用的具有Occ3D占用注释的nuScenes数据集进行了广泛的实验。OccSora可以生成具有真实3D布局和时间一致性的16秒视频，展示了其理解驾驶场景的空间和时间分布的能力。通过轨迹感知4D生成，OccSora有可能成为自动驾驶决策的世界模拟器。

DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation

论文链接：https://arxiv.org/abs/2403.06845v2
项目主页：https://drivedreamer2.github.io/

中科院自动化研究所&GigaAI团队的工作：世界模型在自动驾驶方面表现出了优势，特别是在生成多视图驾驶视频方面。然而，在生成定制的驾驶视频方面仍然存在重大挑战。在本文中，我们提出了DriveDreamer-2，它基于DriveDreamer的框架，并结合了一个大型语言模型（LLM）来生成用户定义的驾驶视频。具体来说，最初结合了LLM接口，将用户的查询转换为代理轨迹。随后，根据轨迹生成符合交通规则的HDMap。最终，我们提出了统一多视图模型来增强生成的驾驶视频中的时间和空间连贯性。DriveDreamer-2是世界上第一款生成定制驾驶视频的车型，它可以以用户友好的方式生成不常见的驾驶视频（例如，突然切入的车辆）。此外，实验结果表明，生成的视频增强了驾驶感知方法（如3D检测和跟踪）的训练。此外，DriveDreamer-2的视频生成质量超越了其他最先进的方法，显示FID和FVD得分分别为11.2和55.7，相对提高了30%和50%。

WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens

论文链接：https://arxiv.org/abs/2401.09985v1
项目主页：https://world-dreamer.github.io/

GigaAI和清华团队的工作：世界模型在理解和预测世界动态方面发挥着至关重要的作用，这对视频生成至关重要。然而，现有的世界模型仅限于游戏或驾驶等特定场景，限制了它们捕捉一般世界动态环境复杂性的能力。因此，我们介绍WorldDreamer，这是一个开创性的世界模型，旨在培养对一般世界物理和运动的全面理解，从而显著增强视频生成的能力。WorldDreamer从大型语言模型的成功中汲取灵感，将世界建模定义为无监督的视觉序列建模挑战。这是通过将视觉输入映射到离散的令牌并预测掩码来实现的。在此过程中，我们结合了多模式提示，以促进世界模型内的交互。我们的实验表明，WorldDreamer在生成不同场景的视频方面表现出色，包括自然场景和驾驶环境。WorldDreamer展示了在执行文本到视频转换、图像到视频合成和视频编辑等任务方面的多功能性。这些结果突显了WorldDreamer在捕捉不同一般世界环境中的动态元素方面的有效性。

Think2Drive: Efficient Reinforcement Learning by Thinking in Latent World Model for Quasi-Realistic Autonomous Driving (in CARLA-v2)

论文链接：https://arxiv.org/abs/2402.16720v2

上交的工作：现实世界中的自动驾驶（AD），尤其是城市驾驶，涉及许多弯道情况。最近发布的AD模拟器CARLA v2在驾驶场景中增加了39个常见事件，与CARLA v1相比提供了更逼真的测试平台。它给社区带来了新的挑战，到目前为止，还没有文献报道V2中的新场景取得了任何成功，因为现有的工作大多必须依赖于特定的规划规则，但它们无法涵盖CARLA V2中更复杂的案例。在这项工作中，我们主动直接训练一个规划者，希望灵活有效地处理极端情况，我们认为这也是AD的未来。据我们所知，我们开发了第一个基于模型的RL方法，名为Think2Drive for AD，使用世界模型来学习环境的转变，然后它充当神经模拟器来训练规划者。由于低维状态空间和世界模型中张量的并行计算，这种范式显著提高了训练效率。因此，Think2Drive能够在单个A6000 GPU上训练3天内以专家级熟练程度运行CARLA v2，据我们所知，到目前为止，CARLA v2上还没有成功的报告（100%的路线完成）。我们还提出了CornerCase Repository，这是一个支持按场景评估驾驶模型的基准。此外，我们提出了一种新的平衡指标，通过路线完成情况、违规次数和场景密度来评估性能，以便驾驶分数可以提供更多关于实际驾驶性能的信息。

OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving

论文链接：https://arxiv.org/abs/2311.16038v1
开源链接：https://github.com/wzzheng/OccWorld

清华团队的工作：了解3D场景如何演变对于自动驾驶决策至关重要。大多数现有方法通过预测对象框的运动来实现这一点，这无法捕获更细粒度的场景信息。本文探索了一种在3D占用空间中学习世界模型OccWorld的新框架，以同时预测自车的运动和周围场景的演变。我们建议基于3D占用而不是3D边界框和分割图来学习世界模型，原因有三：1）表现力：3D占用可以描述场景的更细粒度的3D结构；2）效率：获得3D占用率更经济（例如，从稀疏的LiDAR点）。3）多功能性：3D占用可以适应视觉和激光雷达。为了便于对世界演化进行建模，我们学习了一种基于重建的3D占用场景标记器，以获得离散的场景标记来描述周围的场景。然后，我们采用类似GPT的时空生成Transformer来生成后续场景和自车令牌，以解码未来的占用和自车轨迹。在广泛使用的nuScenes基准上进行的广泛实验证明了OccWorld有效模拟驾驶场景演变的能力。OccWorld还可以在不使用实例和地图监督的情况下生成具有竞争力的规划结果。

从这些工作中我们可以总结出以下几点：

基于世界模型的端到端方法还在持续发展，未来能否落地还需观望；
Occ任务可以无缝地同世界模型相结合，引入VLM和3D GS也是未来可以进一步扩展研究的方向；
世界模型的核心是生成。基于生成的框架，可以添加很多模块，以进一步增强可是解释性和提升性能。
当下世界模型对运动规律、物理规则的建模能力还有限。

文章详情

完全地理解这个世界是世界模型要干的事！2024自动驾驶世界模型大观~