当涉及到在计算机上创造新的蛋白质时,深度生成模型正成为越来越强大的工具。扩散模型是一类生成模型,最近被证明可以生成生理上合理的蛋白质,与自然界中看到的任何实际蛋白质不同,它可以在从头蛋白质设计中提供无与伦比的能力和控制。
然而,当前最先进的模型构建蛋白质结构,这严重限制了其训练数据的广度,并将代限制在蛋白质设计空间的微小且有偏差的部分。
微软研究人员开发了 EvoDiff——一种通用扩散框架,通过将进化规模数据与扩散模型的独特调节能力相结合,可以在序列空间中创建可调节的蛋白质。EvoDiff 可以使结构合理的蛋白质多样化,涵盖所有可能的序列和功能。EvoDiff 可以构建基于结构的模型无法访问的蛋白质,例如那些具有无序部分的蛋白质,同时能够为有用的结构基序设计支架,这一事实证明了基于序列的公式的普遍性。
在蛋白质序列进化中,EvoDiff 是第一个展示扩散生成模型功效的深度学习框架。
EvoDiff 的共同作者、微软高级研究员 Ava Amini 表示:「如果有什么可以从 EvoDiff 中学到的,我认为那就是,我们可以而且应该通过序列进行蛋白质生成,因为我们能够实现通用性、规模化和模块化。我们的扩散框架使我们有能力做到这一点,并控制我们如何设计这些蛋白质以满足特定的功能目标。」
EvoDiff 的另一位共同作者 Kevin K. Yang 表示,「我们设想 EvoDiff 将扩展蛋白质工程的能力,超越结构-功能范式,转向可编程、序列优先的设计,通过 EvoDiff,我们证明我们实际上可能不需要结构,而是『蛋白质序列就是你所需要的』来可控地设计新蛋白质。」
该研究以《Protein generation with evolutionary diffusion: sequence is all you need》为题,发布在 bioRxiv 预印平台上。
GitHub 地址:https://github.com/microsoft/evodiff
论文链接:https://doi.org/10.1101/2023.09.11.556673
6.4 亿个参数
EvoDiff 框架的核心是一个包含 6.4 亿个参数的模型,该模型根据来自所有不同物种和蛋白质功能类别的数据进行训练。训练模型的数据来源于用于序列比对的 OpenFold 数据集 UniRef50,UniProt 数据的子集,UniProt 联盟维护的蛋白质序列和功能信息数据库。
Uniref50 是一个包含约 4200 万个蛋白质序列的数据集。MSA 来自 OpenFold 数据集,其中包括 16,000,000 个 UniClust30 集群和 401,381 个 MSA,涵盖 140,000 个不同的 PDB 链。有关 IDR 的信息来自反向同源 GitHub。
EvoDiff 的主要特征
EvoDiff 主要特征如下:
- 为了生成可管理的蛋白质序列,EvoDiff 将进化规模数据与扩散模型相结合。
- EvoDiff 可以使结构合理的蛋白质多样化,涵盖所有可能的序列和功能。
- 除了生成具有无序部分和基于结构的模型无法获得的其他特征的蛋白质外,EvoDiff 还可以生成功能性结构基序的支架,证明了基于序列的配方的普遍适用性。
EvoDiff 是一种新颖的生成建模系统,用于仅从序列数据创建可编程蛋白质,该系统是通过将进化规模数据集与扩散模型相结合而开发的。其使用离散扩散框架,其中正向过程通过改变其氨基酸特性来迭代地破坏蛋白质序列,并且由神经网络参数化的学习反向过程利用自然框架来预测每次迭代时所做的变化。蛋白质作为氨基酸语言上离散标记的序列。
图 1:EvoDiff,用于仅从序列数据进行可控蛋白质设计。(来源:论文)
可以使用反向方法从头开始创建蛋白质序列。与蛋白质结构设计中传统使用的连续扩散公式相比,EvoDiff 中使用的离散扩散公式在数学上取得了显著的改进。多重序列比对 (MSA) 突出显示相关蛋白质组的氨基酸序列的保守模式和变异,从而捕获单个蛋白质序列进化规模数据集之外的进化联系。为了利用这种额外深度的进化信息,他们构建了在 MSA 上训练的离散扩散模型,以产生新颖的 single lines。
在序列空间中创建可调节的蛋白质
为了说明其在可调蛋白质设计方面的功效,研究人员在一系列生成活动的谱上检查了序列和 MSA 模型(分别为 EvoDiff-Seq 和 EvoDiff-MSA)。
他们首先证明 EvoDiff-Seq 能够可靠地产生高质量、多样化的蛋白质,准确反映自然界蛋白质的组成和功能。EvoDiff-MSA 通过比对具有相似但独特进化历史的蛋白质来引导新序列的开发。最后,他们表明 EvoDiff 可以可靠地生成具有 IDR 的蛋白质,直接克服基于结构的生成模型的关键限制,并且可以通过利用基于扩散的建模框架的调节功能,在没有任何明确结构信息的情况下生成功能结构基序的支架。
图 2:EvoDiff-MSA 支持进化引导序列生成。(来源:论文)
为了生成具有基于序列限制条件调节的可能性的多样化新蛋白质,研究人员提出了 EvoDiff,一种扩散建模框架。通过挑战基于结构的蛋白质设计范式,EvoDiff 可以通过从序列数据生成本质上无序的区域和支架结构基序,无条件地采样结构合理的蛋白质多样性。
通过引导进行调节,创建的序列可以迭代地调整以满足所需的质量,可以在未来的研究中添加到这些功能中。EvoDiff-D3PM 框架很适合通过指导进行条件调节,因为序列中每个残基的身份都可以在每个解码步骤中进行编辑。
然而,研究人员观察到,OADM 在无条件生成方面通常优于 D3PM,这可能是因为 OADM 去噪任务比 D3PM 更容易学习。不幸的是,OADM 和其他现有的条件 LRAR 模型(如 ProGen)降低了指导的有效性。预计新的蛋白质序列将通过调节 EvoDiff-D3PM 的功能目标(例如序列功能分类器描述的目标)来生成。
EvoDiff 数据要求极低
EvoDiff 的数据要求极低,这意味着它可以轻松适应后续用途,而这只有通过基于结构的方法才能实现。研究人员表明,EvoDiff 可以通过修复来创建 IDR,无需微调,从而避免了基于结构的预测和生成模型的经典陷阱。
图 3:EvoDiff 生成本质上无序的区域。(来源:论文)
获取大型测序数据集结构的高昂成本可能会阻止研究人员使用新的生物、医学或科学设计选项,这些选项可以通过在特定于应用程序的数据集(例如来自显示库或大型屏幕的数据集)上微调 EvoDiff 来解锁。尽管 AlphaFold 和相关算法可以预测许多序列的结构,但它们在点突变方面遇到困难,并且在指示虚假蛋白质的结构时可能过于自信。
下一步计划
总之,微软科学家发布了一套离散扩散模型,可用于进行基于序列的蛋白质工程和设计。可以扩展 EvoDiff 模型以进行基于结构或功能的引导设计,并且它们可以立即用于无条件、进化引导和条件创建蛋白质序列。他们希望通过直接用蛋白质语言读取和写入过程,EvoDiff 将为可编程蛋白质创造开辟新的可能性。
「这只是一个包含 6.4 亿参数的模型,如果我们扩展到数十亿个参数,我们可能会看到生成质量的提高,」Alamdari 说道。「虽然我们演示了一些粗粒度的策略,但为了实现更细粒度的控制,我们希望根据文本、化学信息或其他方式来调节 EvoDiff 来指定所需的功能。」
下一步,EvoDiff 团队计划测试模型在实验室生成的蛋白质,以确定它们是否可行。如果事实证明是这样,他们将开始开发下一代框架。