文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

综述!全面概括基础模型对于推动自动驾驶的重要作用

2024-11-29 22:09

关注

本文主要概述了基础模型在自动驾驶领域中的应用,并根据基础模型在自动驾驶模型方面的应用、基础模型在数据增强方面的应用以及基础模型中世界模型对于自动驾驶方面的应用三方面进行展开。

本文链接:https://arxiv.org/pdf/2405.02288

自动驾驶模型

基于语言和视觉基础模型的类人驾驶

在自动驾驶中,语言和视觉的基础模型显示出了巨大的应用潜力,通过增强自动驾驶模型在驾驶场景中的理解和推理,实现自动驾驶的类人驾驶。下图展示了基于语言和视觉的基础模型对驾驶场景的理解以及给出语言引导指令和驾驶行为的推理。

基础模型对于自动驾驶模型增强范式

目前很多工作都已经证明语言和视觉特征可以有效增强模型对于驾驶场景的理解,再获取到对于当前环境的整体感知理解后,基础模型就会给出一系列的语言命令,如:“前方有红灯,减速慢行”,“前方有十字路口,关注行人”等相关语言指令,便于自动驾驶汽车根据相关的语言指令执行最终的驾驶行为。

最近,学术界和工业界将GPT的语言知识嵌入到自动驾驶的决策过程中,以语言命令的形式提高自动驾驶的性能,以促进大模型自动驾驶中的应用。考虑到大模型有望真正部署在车辆端,它最终需要落在规划或控制指令上,基础模型最终应该从动作状态级别授权自动驾驶。一些学者已经进行了初步探索,但仍有很多发展空间。更重要的是,一些学者通过类似GPT的方法探索了自动驾驶模型的构建,该方法直接输出基于大规模语言模型的轨迹甚至控制命令,相关工作已经汇总在如下表格中。

使用预训练主干网络进行端到端自动驾驶

上述的相关内容其核心思路是提高自动驾驶决策的可解释性,增强场景理解,指导自动驾驶系统的规划或控制。在过去的一段时间内,有许多工作一直以各种方式优化预训练主干网络,也有许多研究尝试开发基于Transformer架构的端到端框架,并且取得了非常不错的成绩。因此,为了更加全面的总结基础模型在自动驾驶中的应用,我们对预训练主干的端到端自动驾驶相关研究进行了总结和回顾。下图展示了端到端自动驾驶的整体过程。

基于预训练主干网络的端到端自动驾驶系统的流程图

在端到端自动驾驶的整体流程中,从原始数据中提取低级信息在一定程度上决定了后续模型性能的潜力,优秀的预训练骨干可以使模型具有更强的特征学习能力。ResNet和VGG等预训练卷积网络是端到端模型视觉特征提取应用最广泛的主干网络。这些预训练网络通常利用目标检测或分割作为提取广义特征的任务进行训练,并且他们所取得的性能已经在很多工作中得到了验证。

此外,早期的端到端自动驾驶模型主要是基于各种类型的卷积神经网络,通过模仿学习或者强化学习的方式来完成。最近的一些工作试图建立一个具有Transformer网络结构的端到端自动驾驶系统,并且同样取得了比较不错的成绩,比如Transfuser、FusionAD、UniAD等工作。

数据增强

随着深度学习技术的进一步发展,底层网络架构的进一步完善和升级,具有预训练和微调的基础模型已经展现出了越来越强大的性能。由GPT代表的基础模型已经使得大模型从学习范式的规则向数据驱动的方式进行转换。数据作为模型学习关键环节的重要性是无可替代的。在自动驾驶模型的训练和测试过程中,大量的场景数据被用来使模型能够对各种道路和交通场景具有良好的理解和决策能力。自动驾驶面临的长尾问题也是这样一种事实,即存在无穷无尽的未知边缘场景,使模型的泛化能力似乎永远不足,导致性能较差。

数据增强对于提高自动驾驶模型的泛化能力至关重要。数据增强的实现需要考虑两个方面

所以,相关的研究工作主要从以上两个方面开展相关的技术研究,一是丰富现有的数据集中的数据内容,增强驾驶场景中的数据特征。二是通过模拟的方式生成多层次的驾驶场景。

扩展自动驾驶数据集

现有的自动驾驶数据集主要是通过记录传感器数据然后标记数据来获得的。通过这种方式获得的数据特征通常是很低级的,同时数据集的量级也是比较差,这对于自动驾驶场景的视觉特征空间是完全不够的。语言模型表示的基础模型在高级语义理解、推理和解释能力为自动驾驶数据集的丰富和扩展提供了新的思路和技术途径。通过利用基础模型的高级理解、推理和解释能力来扩展数据集可以帮助更好地评估自动驾驶系统的可解释性和控制,从而提高自动驾驶系统的安全性和可靠性。

生成驾驶场景

驾驶场景对自动驾驶来说具有重要的意义。为了获得不同的驾驶场景数据,仅依赖采集车辆的传感器进行实时采集需要消耗巨大的成本,很难为一些边缘场景获得足够的场景数据。通过仿真生成逼真的驾驶场景引起了许多研究者的关注,交通仿真研究主要分为基于规则和数据驱动两大类。

随着技术的发展,目前数据的生成方式已经逐渐由规则的方式转换为数据驱动的方式。通过高效、准确地模拟驾驶场景,包括各种复杂和危险的情况,为模型学习提供了大量的训练数据,可以有效提高自动驾驶系统的泛化能力。同时,生成的驾驶场景也可用于评估不同的自动驾驶系统和算法来测试和验证系统性能。下表是不同数据增强策略的总结。

不同数据增强策略总结

世界模型

世界模型被认为是为一种人工智能模型,它包含了它运行的环境的整体理解或表示。该模型能够模拟环境做出预测或决策。在最近的文献中,强化学习的背景下提到了术语”世界模型”。这个概念在自动驾驶应用中也得到了关注,因为它能够理解和阐明驾驶环境的动态特性。世界模型与强化学习、模仿学习和深度生成模型高度相关。然而,在强化学习和模仿学习中利用世界模型通常需要标注好的数据,并且SEM2以及MILE等方法都是在监督范式中进行的。同时,也有尝试根据标记的数据的局限性将强化学习和无监督学习结合起来。由于与自监督学习密切相关,深度生成模型变得越来越流行,目前已经提出了很多工作。下图展示出来了使用世界模型增强自动驾驶模型的整体流程图。

世界模型进行自动驾驶模型增强的整体流程图

深度生成模型

深度生成模型通常包括变分自动编码器、生成对抗网络、流模型以及自回归模型。

生成式方法

基于深度生成模型的强大能力,利用深度生成模型作为世界模型学习驾驶场景以增强自动驾驶已经逐渐成为研究热点。接下来我们将回顾利用深度生成模型作为自动驾驶中的世界模型的应用。视觉是人类获取有关世界信息的最直接有效的方法之一,因为图像数据中包含的特征信息极其丰富。许多以前的工作通过世界模型完成了图像生成的任务,表明世界模型对图像数据具有良好的理解和推理能力。目前整体来看,研究者们希望可以从图像数据中学习世界的内在进化规律,然后预测未来的状态。结合自监督学习,世界模型用于从图像数据中学习,充分释放模型的推理能力,为视觉域构建广义基础模型提供了一种可行的方向。下图展示了一些利用世界模型的相关工作内容汇总。

使用世界模型进行预测的工作汇总

非生成式方法

与生成世界模型相比,LeCun通过提出联合提取和预测架构 (JEPA) 详细阐述了他对世界模型的不同概念。这是一个非生成和自监督的架构,因为它不直接根据输入数据来预测输出结果,而是将输入数据编码在一种抽象空间中进行编码完成最终的预测。这种预测方式的优点是它不需要预测关于输出结果的所有信息,并且可以消除不相关的细节信息。

JEPA是一种基于能量模型的自监督学习架构,它观察和学习世界如何工作和高度概括的规律。JEPA在自动驾驶中也有很大的潜力,有望通过学习驾驶是如何工作的来生成高质量的驾驶场景和驾驶策略。

结论

本文全面概述了基础模型在自动驾驶应用中的重要作用。从本文调研的相关研究工作的总结和发现来看,另一个值得进一步探索的方向是如何为自监督学习设计一个有效的网络架构。自监督学习可以有效地突破数据标注的局限性,允许模型大规模的对数据进行学习,充分释放模型的推理能力。如果自动驾驶的基础模型可以在自监督学习范式下使用不同规模的驾驶场景数据进行训练,则预计其泛化能力将大大提高。这种进步可能会实现更通用的基础模型。

总之,虽然在将基础模型应用于自动驾驶方面存在许多挑战,但其具有非常广阔的应用空间和发展前景。未来,我们将继续观察应用于自动驾驶的基础模型的相关进展。

来源:自动驾驶之心内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯