文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

斯坦福、微软联手,用扩散模型进行蛋白质结构生成,已开源

2024-12-01 14:22

关注

本文中,来自斯坦福大学、微软研究院等机构的研究者,他们受体内蛋白质折叠过程的启发,从而引入了一个折叠扩散( folding diffusion,FoldingDiff  )模型,该模型通过镜像蛋白质天然折叠过程来设计蛋白质主链结构。


具体而言,他们将蛋白质主链结构描述为一系列连续的角度,以捕捉组成氨基酸残基的相对方向,这种表示的固有位移和旋转不变性极大地减轻了对复杂等变网络的需要。

该研究基于 transformer 骨干训练了一个去噪扩散概率模型,并证明本文的模型可以无条件地生成高度逼真的蛋白质结构,其复杂性和结构模式类似于天然蛋白质。

有网友表示:不知道这个模型是否会为 AlphaFold 带来一些竞争。

方法及结果​

我们可以将蛋白质理解为是可变长度的氨基酸残基链,典型氨基酸有 20 种,享有相同的三原子 N - C_α - C 主链,但具有不同的侧链连接到 C_α 原子上(通常表示为 R,参见图 1 所示 )。

这些残基组装形成聚合物链,折叠成 3D 结构,其形状在很大程度上决定了蛋白质的功能。这些折叠结构可以用四个层次来描述:

该研究提出了一个简化的蛋白质主链框架,它遵循蛋白质折叠的生物学过程,同时消除了复杂的等变网络的需要。与其将长度为 N 个氨基酸的蛋白质主链视为三维坐标,他们把它看作由六个内角、连续角组成的序列。也就是说,给定当前残基的位置,六个内角的向量描述了下一个残基中所有主链原子的相对位置。这些内角可以使用三角函数轻松计算,迭代地将原子添加到蛋白质骨架中,然后在转换回 3D 笛卡尔坐标。

下图为一项实验结果。自然结构的 Ramachandran 图(图 a)包含三个区域,分别对应于 LH  α螺旋、RH  α 螺旋和β sheet。所有这三个区域都在本文生成的结构中全部再现(图 3b)。换句话说,FoldingDiff 能够生成蛋白质主链中的二级结构元素。此外,实验还表明 FoldingDiff 模型能够正确地了解到 RH  α 螺旋比 LH  α 螺旋更常见。而先前的工作使用等变网络,是无法区分这两种类型的螺旋的。 

下图为在测试主链 (4a) 和生成主链 (4b) 中出现二级结构的二维直方图,结果表明生成的结构反映了蛋白质真实的结构,有多个α螺旋,多个β sheets ,以及两者的混合。

下图表明,在生成的 780 个结构中有 111 个(占比为 14.2%)是可设计的,其 scTM 评分≥0.5(图 5a),高于 Trippe 等人报告的 11.8% 的值。我们还看到,生成的主链与训练示例更相似,往往具有更好的可设计性(5b)。

了解更多内容,请阅读原论文。

来源:机器之心内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯