蛋白质分子的功能通常取决于其形状和结构,因此了解控制形状和结构的科学可以打开一扇门,以了解从蛋白质的工作原理到疾病原因以及设计靶向药物疗法的最佳方法的所有方面。这是机器学习算法首次以这种方式应用于生物分子动力学,该方法的成功提供了见识,也可以帮助推进人工智能(AI)。关于这项工作的研究论文于2020年10月9日发表在《自然通讯》杂志上。
该论文的资深作者,马里兰大学化学与生物化学系副教授Pratyush Tiwary表示:“在这里,我们展示了当编写电子邮件时,用于完成句子的人工智能架构可以用来揭示生命分子所讲的语言。我们证明了这些分子的运动可以被映射成一种抽象的语言,并且人工智能技术可以用来从所产生的抽象词中产生生物学上真实的故事。”
生物分子不断运动,在周围环境中变化。它们的形状取决于如何折叠和扭曲。它们可能会以给定的形状保持几秒钟或几天的时间,然后突然弹开并重新折叠成其他形状或结构。从一种形状到另一种形状的过渡非常类似于逐步展开的缠结线圈的拉伸。当线圈的不同部分释放和展开时,分子呈现不同的中间构象。
但是从一种形式到另一种形式的转变发生在皮秒(万亿分之一秒)或更短的时间内,这使得诸如高功率显微镜和光谱学之类的实验方法难以准确地捕获展开的过程,哪些参数影响展开以及什么不同的形状是可能的。这些问题的答案构成了Tiwary的新方法可以揭示的生物学故事。
Tiwary和他的团队利用牛顿的运动定律(可以预测分子内原子的运动)与强大的超级计算机(包括马里兰大学的Deepthought2)来开发统计物理模型,以模拟单个分子的形状、运动和轨迹。
然后,他们将这些模型输入到机器学习算法中,就像Gmail会在键入内容时自动完成句子一样。该算法将模拟作为一种语言进行处理,在这种语言中,每个分子运动都形成一个字母,该字母可以与其他运动串在一起形成单词和句子。通过学习确定哪些形状和运动相互遵循而哪些不遵循的语法和语法规则,该算法可以预测蛋白质在改变形状时的纠缠方式以及沿途采取的多种形式。
为了证明他们的方法有效,研究小组将其应用于一种名为核糖开关的小生物分子,该分子先前已使用光谱法进行了分析。结果揭示了核糖开关在拉伸过程中可能采取的各种形式,与光谱学研究的结果相吻合。
Tiwary说:“我希望,这种药物最重要的用途之一就是开发针对性强的药物。希望有强大的药物结合力,但只结合希望结合的东西。如果我们能够了解给定目标生物分子可以采取的不同形式,那么我们可以实现这一目标,因为我们可以制造药物只能在适当的时间绑定到这些特定形式中的一种,并且只要我们愿意就可以绑定。”
这项研究中同样重要的部分是有关Tiwary及其团队使用的语言处理系统的知识,通常被称为递归神经网络,在此特定情况下为长短期记忆网络。研究人员分析了网络的基本数学原理,因为该网络学习了分子运动的语言。他们发现网络使用的逻辑类似于统计物理学中的一个重要概念,称为路径熵。了解这一点为将来改善递归神经网络提供了机会。
Tiwary说:“很自然地要问是否存在使人工智能工具成功的主要物理原理。实际上,我们发现这是因为人工智能正在学习路径熵。它提供了更多功能,我们可以进行调整,以更好地实现生物学上的人工智能,甚至可以改善人工智能本身。只要了解诸如人工智能之类的复杂系统,它就不再像黑盒一样,并提供了更有效、更可靠地使用它的新工具。”