文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Sora到底是如何工作的?

2024-11-30 02:00

关注

审校 | 重楼

OpenAI团队推出了Sora这一大规模视频生成模型,展示了模拟物理世界基本方面的新功能。我关注文本生成视频这个领域很长一段时间,我认为这个模型代表了质量方面的突飞猛进

我在RedditTwitter上看到许多人在猜测个模型如何工作,包括一些非主流的说法Sora是否在名为Unreal的游戏引擎中运行?)当这突破性的AI工具发布时,很多人都想自己似乎了解相关原理,或者甚至可能欺骗自己,认为基于几个已发布的视频样本就能从微妙线索略知一二。我发现这方面最糟糕的例子莫过于Jim Fan博士的帖子,他声称Sora是一个数据驱动的物理引擎该帖子在Twitter上被浏览了大约400(Sora根本就不是一个数据驱动的物理引擎

运的是,OpenAI发布了一篇研究文章,解释了其模型的架构。如果我们读了这篇文章,实际上没有必要猜测。下面我将介绍OpenAI团队提供的技,这样我们可以看Sora到底是如何工作的。

为什么Sora很了不起?

自人工智能领域问世以来,创建能够建模、理解和模拟现实世界内在复杂性的人工智能直是一非常困难的挑战。与静态图像不同,视频本质上涉及呈现一段时间内的变化、3D空间、物理交互对象连续性等等。过去的视频生成模型很难处理不同的视频持续时间、分辨率和相机角度。更重要的是,这些系统对物理、因果关系和物体持久性缺乏内在理解而这种理解是进行高保真的现实模拟所必需的。

OpenAI发布的视频展示了一个比我们在这些领域见过的任何模型都更好的模型。坦白说,这些视频看起来很真实。比如说,一个人的头,然后越过标牌,而标牌上的文字保持不变。动物即使在“空闲”时也会逼真地摆动翅膀。风中的花瓣将随风摇摆。大多数视频模型面对这种挑战无能为力,结果往往是一些闪烁、抖动的画面,观众很难厘清头绪,但Sora不存在这个问题。它是如何做到的?

关于模型架构和训练的技术细节

在研究模型和现有的帖子时,我的第一个主要的感悟是,这项研究工作建立在OpenAI的GPT等语言模型之前的工作基础上。

研究人员介绍的一个关键创新是Sora如何在训练过程中表示视频。每一帧都被分成许多小Patch),类似在GPT-4等大语言模型中将单词分解成Token的方式。这种基于片块的方法可以让Sora使用长度、分辨率、方向和宽高比各异的视频加以训练。无论源视频的原始形状如何,从帧中提取的片块以一模一样的方式加以处理。

图1. OpenAI的研究文章称:“大致来说,我们先将视频压缩到一个较低维度的潜在空间,然后将视频表征分解为时空片块从而将视频变成片块。”

Sora使用与其GPT模型密切相关的变换器(Transformer)架构来处理这些视频Token的长序列。变换器时空自关注层,这些层在对文本、音频和视频等序列中的远程依赖关系建模方面显示大有好处。

训练过程中,Sora变换器模型将扩散过程早期的视频Token序列作为输入,预测原始的去噪Token。通过使用数百万个不同视频进行训练Sora慢慢学会了自然视频帧的模式和语义。

图2. 来自OpenAI研究文章的去噪过程图

Sora也是有条件的,这意味着它可以根据文本提示可控地生成视频。文本提示被嵌入并作为附加上下文提供给模型,与当前视频帧对应的片块提供。

为了更好地将文本描述与实际视频内容联系起来,研究人员为每个训练视频使用了高度描述性的字幕,这些字幕是从一个单独的字幕模型生成的。这技术帮助Sora更紧密地遵循文本提示。

在推理过程中,Sora从纯噪声片块开始,并在50多个扩散步骤中反复去噪,直到出现连贯流畅的视频。通过提供不同的文本提示,Sora就能生成与字幕适当匹配的不同视频。

基于片块视频表征允许Sora在测试时处理任何分辨率、持续时间和方向,只需在开始扩散过程之前将片块排列成所需的形状就行

功能和限制

通过将训练数据扩展到数百万个视频片段的规模,并使用大量的计算资源,OpenAI团队发现了一些非常有意思突现行为

然而,Sora依然显示出明显的缺陷和局限性

未来发展方向

尽管一直存在这些缺陷,Sora预示了未来的潜力,因为研究人员继续扩大视频生成模型的规模。有了足够的数据和算,视频变换器可能会开始对现实世界的物理、因果关系和物体持久性有更深刻的理解。结合语言理解能力,这有望通过基于视频的现实世界模拟训练AI系统开辟新思路

Sora朝着这个目标迈出了头几步。虽然需要做更多的工作来克服它的许多弱点,但它所演示的新兴功能彰显了这一研究方向的前景。使用大量不同的视频数据集训练的巨型变换器最终可能会生成AI系统,能够与我们的物理环境的内在复杂性、丰富和深度进行智能交互和理解。

结论

因此,与毫无根据的说法相反,Sora不是通过游戏引擎或数据驱动的物理引擎”来运行,而是通过一种变换器架构来运行这种架构凭借视频“片块”来运行,尤如GPT-4凭借文本Token来运行。它擅长创建表明理解深度对象持久性和自然动态的视频。

该模型的关键创新在于将视频帧作为片块序列来处理,类似语言模型中的单词Token,使能够有效地管理不同的视频方面。这种方法结合文本条件生成,使Sora能够根据文本提示生成与上下文相关视觉上连贯的视频。

尽管拥有突破性的功能,Sora仍然有局限性,比如为复杂的交互建模和动态场景保持连贯性。这些局限性恰恰表明需要进一步研究,但其在推进视频生成技术方面取得的重大成就。

我希望Sora能尽快发布给人们试用,因为我已经想到了关于这种技术的众多新颖的应用,不妨让我们拭目以待。

原文How Sora (actually) works,作者:Mike Young

来源:51CTO内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯