一览Occ与自动驾驶的前世今生！首篇综述全面汇总特征增强/量产部署/高效标注三大主题-编程学习网

写在前面&笔者的个人理解

近年来，自动驾驶因其在减轻驾驶员负担和提高驾驶安全方面的潜力而越来越受到关注。基于视觉的三维占用预测是一种新兴的感知任务，适用于具有成本效益的自动驾驶感知系统，它可以根据图像输入预测自动驾驶汽车周围三维体素网格的空间占用状态和语义。尽管许多研究已经证明，与以物体为中心的感知任务相比，3D占用预测具有更大的优势，但仍缺乏专门针对这一快速发展的领域的综述。本文首先介绍了基于视觉的三维占用预测的背景，并讨论了这项任务中的挑战。其次，我们从特征增强、部署友好性和标签效率三个方面全面调查了基于视觉的3D占用预测的进展，并深入分析了每类方法的潜力和挑战。最后总结了当前的研究趋势，并提出了一些鼓舞人心的未来展望。

开源链接：https://github.com/zya3d/Awesome-3D-Occupancy-Prediction

总结来说，本文的主要贡献如下：

据我们所知，这篇论文是第一篇针对基于视觉的自动驾驶3D占用预测方法的全面综述。
本文从特征增强、计算友好和标签高效三个角度对基于视觉的三维占用预测方法进行了结构总结，并对不同类别的方法进行了深入分析和比较。
本文提出了基于视觉的3D占用预测的一些鼓舞人心的未来展望，并提供了一个定期更新的github存储库来收集相关论文、数据集和代码。

图3显示了基于视觉的3D占用预测方法的时序概述，图4显示了相应的分层结构分类法。

部署友好方法

由于其广泛的范围和复杂的数据性质，直接从3D空间学习占用表示是极具挑战性的。与3D体素表示相关的高维度和密集的计算使得学习过程对资源的要求很高，这不利于实际部署应用。因此，设计部署友好的3D表示的方法旨在降低计算成本并提高学习效率。本节介绍了解决3D场景占用估计中计算挑战的方法，重点是开发准确高效的方法，而不是直接处理整个3D空间。所讨论的技术包括透视分解和从粗到细的细化，这些技术已在最近的工作中得到证明，以提高3D占用预测的计算效率。

Perspective decomposition methods

通过将视点信息从3D场景特征中分离出来或将其投影到统一的表示空间中，可以有效地降低计算复杂度，使模型更加稳健和可推广。这种方法的核心思想是将三维场景的表示与视点信息解耦，从而减少特征学习过程中需要考虑的变量数量，降低计算复杂度。解耦视点信息使模型能够更好地泛化，适应不同的视点变换，而无需重新学习整个模型。

为了解决从整个3D空间学习的计算负担，一种常见的方法是使用鸟瞰图（BEV）和三视角图（TPV）表示。通过将3D空间分解为这些单独的视图表示，计算复杂度显著降低，同时仍然捕获用于占用预测的基本信息。关键思想是首先从BEV和TPV的角度学习，然后通过结合从这些不同视图中获得的见解来恢复完整的3D占用信息。与直接从整个3D空间学习相比，这种透视分解策略允许更高效和有效的占用估计。

Coarse-to-fine methods

直接从大规模3D空间学习高分辨率细粒度全局体素特征是耗时且具有挑战性的。因此，一些方法已经开始探索采用从粗到细的特征学习范式。具体而言，网络最初从图像中学习粗略的表示，然后细化和恢复整个场景的细粒度表示。这两步过程有助于实现对场景占用率的更准确和有效的预测。

OpenOccupancy采用两步方法来学习3D空间中的占用表示。如图14所示。

预测3D占用率需要详细的几何表示，并且利用所有3D体素标记与多视图图像中的ROI进行交互将产生显著的计算和内存成本。如图15所示，Occ3D提出了一种增量令牌选择策略，在交叉注意力计算过程中选择性地选择前景和不确定的体素令牌，从而在不牺牲精度的情况下实现自适应高效计算。具体地，在每个金字塔层的开始，每个体素标记被输入到二进制分类器中，以预测体素是否为空，由二进制地面实况占用图来监督以训练分类器。PanoOcc提出在联合学习框架内无缝集成对象检测和语义分割，促进对3D环境的更全面理解。该方法利用体素查询来聚合来自多帧和多视图图像的时空信息，将特征学习和场景表示合并为统一的占用表示。此外，它通过引入占用稀疏性模块来探索3D空间的稀疏性，该模块在从粗到细的上采样过程中逐渐稀疏占用，显著提高了存储效率。

Occ3D nuScenes数据集上部署友好方法的性能比较如表4所示。由于结果是从不同的论文中收集的，在主干、图像大小和计算平台方面存在差异，因此只能得出一些初步结论。通常，在类似的实验设置下，由于信息丢失较少，从粗到细的方法在性能方面优于透视分解方法，而透视分解通常表现出更好的实时性能和更低的内存使用率。此外，采用较重主干和处理较大图像的模型可以获得更好的精度，但也会削弱实时性能。尽管FlashOcc和FastOcc等方法的轻量级版本已经接近实际部署的要求，但它们的准确性还需要进一步提高。对于部署友好的方法，透视分解策略和从粗到细策略都致力于在保持3D占用预测准确性的同时，不断减少计算负载。

Label-efficient methods

在现有的创建精确占用标签的方法中，有两个基本步骤。第一个是收集与多视图图像相对应的激光雷达点云，并进行语义分割注释。另一种是利用动态物体的跟踪信息，通过复杂的算法融合多帧点云。这两个步骤都相当昂贵，这限制了占用网络利用自动驾驶场景中大量多视图图像的能力。近年来，神经辐射场（Nerf）在二维图像绘制中得到了广泛的应用。有几种方法以类似Nerf的方式将预测的三维占用绘制成二维地图，并在没有细粒度标注或激光雷达点云参与的情况下训练占用网络，这显著降低了数据标注的成本。

Annotation-free methods

SimpleOccupancy首先通过视图变换从图像特征中生成场景的显式3D体素特征，然后按照Nerf风格的方式将其渲染为2D深度图。二维深度图由激光雷达点云生成的稀疏深度图监督。深度图还用于合成用于自我监督的环绕图像。UniOcc使用两个单独的MLP将3D体素logits转换为体素的密度和体素的语义logits。之后，UniOCC按照一般的体积渲染来获得多视图深度图和语义图，如图17所示。这些2D地图由分割的LiDAR点云生成的标签进行监督。RenderOcc从多视图图像中构建类似于NeRF的3D体积表示，并使用先进的体积渲染技术来生成2D渲染，该技术可以仅使用2D语义和深度标签来提供直接的3D监督。通过这种2D渲染监督，该模型通过分析来自各种相机截头体的光线交点来学习多视图一致性，从而更深入地了解3D空间中的几何关系。此外，它引入了辅助光线的概念，以利用来自相邻帧的光线来增强当前帧的多视图一致性约束，并开发了一种动态采样训练策略来过滤未对准的光线。为了解决动态和静态类别之间的不平衡问题，OccFlowNet进一步引入了占用流，基于3D边界框预测每个动态体素的场景流。使用体素流，可以将动态体素移动到时间帧中的正确位置，从而无需在渲染过程中进行动态对象过滤。在训练过程中，使用流对正确预测的体素和边界框内的体素进行转换，以与时间帧中目标位置对齐，然后使用基于距离的加权插值进行网格对齐。

上述方法消除了对显式3D占用注释的需要，大大减少了手动注释的负担。然而，他们仍然依赖激光雷达点云来提供深度或语义标签来监督渲染的地图，这还不能实现3D占用预测的完全自监督框架。

LiDAR-free methods

OccNerf不利用激光雷达点云来提供深度和语义标签。相反，如图18所示，它使用参数化占用字段来处理无边界的室外场景，重新组织采样策略，并使用体积渲染将占用字段转换为多相机深度图，最终通过多帧光度一致性进行监督。此外，该方法利用预先训练的开放词汇语义分割模型来生成2D语义标签，监督该模型将语义信息传递给占用字段。幕后使用单一视图图像序列来重建驾驶场景。它将输入图像的截头体特征视为密度场，并渲染其他视图的合成。通过专门设计的图像重建损失来训练整个模型。SelfOcc预测BEV或TPV特征的带符号距离场值，以渲染2D深度图。此外，原始颜色和语义图也由多视图图像序列生成的标签进行渲染和监督。

这些方法避开了对来自激光雷达点云的深度或语义标签的必要性。相反，他们利用图像数据或预训练的模型来获得这些标签，从而实现3D占用预测的真正的自监督框架。尽管这些方法可以实现最符合实际应用经验的训练模式，但仍需进一步探索才能获得令人满意的性能。

表5显示了Occ3D nuScenes数据集上标签高效方法的性能比较。大多数无注释方法使用2D渲染监督作为显式3D占用监督的补充，并获得了一定的性能改进。其中，UniOcc和RadOcc甚至在所有方法中分别获得了3和4的优异排名，充分证明了无注释机制可以促进额外有价值信息的提取。当仅采用2D渲染监督时，它们仍然可以实现相当的精度，说明了节省显式3D占用注释成本的可行性。无激光雷达的方法为3D占用预测建立了一个全面的自我监督框架，进一步消除了对标签和激光雷达数据的需求。然而，由于点云本身缺乏精确的深度和几何信息，其性能受到极大限制。

未来展望

在上述方法的推动下，我们总结了当前的趋势，并提出了几个重要的研究方向，这些方向有可能从数据、方法和任务的角度显著推进基于视觉的自动驾驶3D占用预测领域。

数据层面

获取充足的真实驾驶数据对于提高自动驾驶感知系统的整体能力至关重要。数据生成是一种很有前途的途径，因为它不会产生任何获取成本，并提供了根据需要操纵数据多样性的灵活性。虽然一些方法利用文本等提示来控制生成的驾驶数据的内容，但它们不能保证空间信息的准确性。相比之下，3D Occupancy提供了场景的细粒度和可操作的表示，与点云、多视图图像和BEV布局相比，有助于可控的数据生成和空间信息显示。WoVoGen提出了体积感知扩散，可以将3D占用映射到逼真的多视图图像。在对3D占用进行修改后，例如添加一棵树或更换一辆汽车，扩散模型将合成相应的新驾驶场景。修改后的三维占用记录了三维位置信息，保证了合成数据的真实性。

自动驾驶的世界模型越来越突出，它提供了一个简单而优雅的框架，增强了模型基于环境输入观测来理解整个场景并直接输出合适的动态场景演化数据的能力。鉴于其能够熟练地详细表示整个驾驶场景数据，利用3D占用率作为世界模型中的环境观测具有明显的优势。如图19所示，OccWorld选择3D占用率作为世界模型的输入，并使用类似GPT的模块来预测未来的3D占用率数据应该是什么样子。UniWorld利用了现成的基于BEV的3D occ-pancy模型，但通过处理过去的多视图图像来预测未来的3D占用数据，这也构建了一个世界模型。然而，无论机制如何，生成的数据和真实数据之间不可避免地存在领域差距。为了解决这个问题，一种可行的方法是将3D占用预测与新兴的3D人工智能生成内容（3D AIGC）方法相结合，以生成更真实的场景数据，而另一种方法是将领域自适应方法相结合以缩小领域差距。

方法论层面

当涉及到3D占用预测方法时，在我们之前概述的类别中，存在着需要进一步关注的持续挑战：功能增强方法、部署友好方法和标签高效方法。特征增强方法需要朝着显著提高性能的方向发展，同时保持可控的计算资源消耗。部署友好的方法应该记住，减少内存使用和延迟，同时确保将性能下降降至最低。标签高效的方法应该朝着减少昂贵的注释需求的方向发展，同时实现令人满意的性能。最终目标可能是实现一个统一的框架，该框架结合了功能增强、部署友好性和标签效率，以满足实际自动驾驶应用的期望。

此外，现有的单智能体自动驾驶感知系统天生无法解决关键问题，如对遮挡的敏感性、远程感知能力不足和视野有限，这使得实现全面的环境意识具有挑战性。为了克服单智能体的瓶颈，多智能体协同感知方法开辟了一个新的维度，允许车辆与其他交通元素共享互补信息，以获得对周围环境的整体感知。如图20所示，多智能体协同3D占用预测方法利用协同感知和学习的力量进行3D占用预测，通过在连接的自动化车辆之间共享特征，能够更深入地了解3D道路环境。CoHFF是第一个基于视觉的协作语义占用预测框架，它通过语义和occupancy任务特征的混合融合，以及车辆之间共享的压缩正交注意力特征，改进了局部3D语义占用预测，在性能上显著优于单车系统。然而，这种方法往往需要同时与多个代理进行通信，面临准确性和带宽之间的矛盾。因此，确定哪些代理最需要协调，以及确定最有价值的协作领域，以实现准确性和速度之间的最佳平衡，是一个有趣的研究方向。

任务层面

在当前的3D占用基准中，某些类别具有明确的语义，如“汽车”、“行人”和“卡车”。相反，“人造”和“植被”等其他类别的语义往往是模糊和笼统的。这些类别包含了广泛的未定义语义，应该细分为更细粒度的类别，以提供驾驶场景的详细描述。此外，对于以前从未见过的未知类别，它们通常被视为一般障碍，无法根据人类提示灵活扩展新的类别感知。对于这个问题，开放词汇任务在2D图像感知方面表现出了强大的性能，并且可以扩展到改进3D占用预测任务。OVO提出了一个支持开放词汇表3D占用预测的框架。它利用冻结的2D分割器和文本编码器来获得开放词汇的语义参考。然后，采用三个不同级别的比对来提取3D占用模型，使其能够进行开放词汇预测。POP-3D设计了一个自监督框架，在强大的预训练视觉语言模型的帮助下，结合了三种模式。它方便了诸如零样本占用分割和基于文本的3D检索之类的开放式词汇任务。

感知周围环境的动态变化对于自动驾驶中下游任务的安全可靠执行至关重要。虽然3D占用预测可以基于当前观测提供大规模场景的密集占用表示，但它们大多局限于表示当前3D空间，并且不考虑周围物体沿时间轴的未来状态。最近，人们提出了几种方法来进一步考虑时间信息，并引入4D占用预测任务，这在真实的自动驾驶场景中更实用。Cam4Occ首次使用广泛使用的nuScenes数据集为4D占用率预测建立了一个新的基准。该基准包括不同的指标，用于分别评估一般可移动物体（GMO）和一般静态物体（GSO）的占用预测。此外，它还提供了几个基线模型来说明4D占用预测框架的构建。尽管开放词汇3D占用预测任务和4D占用预测任务旨在从不同角度增强开放动态环境中自动驾驶的感知能力，但它们仍然被视为独立的任务进行优化。模块化的基于任务的范式，其中多个模块具有不一致的优化目标，可能导致信息丢失和累积错误。将开集动态占用预测与端到端自动驾驶任务相结合，将原始传感器数据直接映射到控制信号是一个很有前途的研究方向。

文章详情

一览Occ与自动驾驶的前世今生！首篇综述全面汇总特征增强/量产部署/高效标注三大主题

写在前面&笔者的个人理解

相关背景

真值生成

数据集

关键挑战

特征增强方法

BEV-based methods

TPV-based methods

Voxel-based methods