Science | 华盛顿大学Baker实验室提出新方法设计全新蛋白质

在过去几年中,深度学习技术彻底改变了蛋白质结构预测。而现在,人工智能又在蛋白质设计领域引发了新一轮革命。计算生物学家发现,使用深度学习,可以在几秒钟内创建出全新蛋白质分子。而在以前,这个过程也许需要几个月。并且,新方法准确率也更高。

9月15日,华盛顿大学医学院David Baker的研究团队在Science上连发两篇论文,介绍了他们在蛋白质设计领域的最新进展。

Science | 华盛顿大学Baker实验室提出新方法设计全新蛋白质

 

Science | 华盛顿大学Baker实验室提出新方法设计全新蛋白质

也许你会问:创造出自然界中没有的蛋白质,对我们有什么意义/p>

简单的说,通过这些蛋白质,也许我们会开发出更多疫苗,加快治疗癌症的研究,研发出碳捕获工具,和全新的可持续生物材料。

蛋白质设计的一般方法

这几年,已经有几十种人工智能蛋白质设计工具被开发了出来,研究人员可以混合和匹配各种方法来得出一个可行的最终设计。总体来讲,不外乎四种方法:

  • 固定骨架设计:给定一个预设蛋白质结构,然后用Al确定该蛋白质的氨基酸序列。

  • 序列生成: 利用语言模型,让AI学会如何生成蛋白质。然后通过微调这些神经网络,得到特定蛋白质家族成员的新序列。

  • 结构生成:对蛋白质结构进行训练的神经网络可以生成完全新颖的蛋白质结构,但往往对输出的控制有限。

  • 序列和结构设计:使用一种叫做inpainting的方法,研究人员输入他们希望包含在蛋白质中的结构或序列,而Al网络则填补其余部分。

 

Science | 华盛顿大学Baker实验室提出新方法设计全新蛋白质

 

在这两篇新论文中,华盛顿大学医学院的生物学家表示,机器学习可用于比以前更准确、更快速地创建蛋白质分子。

David Baker是华盛顿大学医学院生物化学教授、2021年生命科学突破奖获得者。

据他介绍:「蛋白质是整个生物学的基础,但是要知道,现在我们在每种植物、动物和微生物中发现的所有蛋白质,都还不到所有可能的蛋白质的百分之一。有了这些新的软件工具,研究人员也许就能够找到长期的解决方案,去攻克医学、能源和技术上的难题。」

在自然界中,蛋白质被称为「生命的基石」,因为它们在所有生物的结构中都是必不可少的。在一个细胞生长、分裂、修复的每一个过程中,几乎都有蛋白质的参与。

可以说,蛋白质基本解决了生命的所有问题,生物学中的一切都发生在蛋白质上。

Baker介绍说:「为了解决生物体在进化过程中面临的问题,它们在进化中不断演变。人类今天在面临着新的问题,比如新冠病毒。如果我们能设计出一种新的蛋白质,让它像在进化过程中演变出的蛋白质一样,解决种种问题,那它的力量将是非常强大的。」

蛋白质由数十万个氨基酸组成,这些氨基酸以长链的形式连接起来。蛋白质中的氨基酸序列决定了它的三维形状。这种复杂的形状对于蛋白质的功能至关重要。

在2020年,人工智能实验室DeepMind宣布AlphaFold时,就已经让全世界大吃一惊了。这个AI工具利用深度学习,解决了生物学的一个大挑战:准确预测蛋白质的形状。而今年夏天,DeepMind宣布,AlphaFold现在可以预测科学上已知的所有蛋白质的形状。

通过预测蛋白质的结构,就可以洞察它们的表现。

在蛋白质预测领域,科学家已经取得了举世瞩目的惊人成绩。而在蛋白质设计领域, Baker的团队也取得了突破性进展。

要知道,按照一般的传统,研究人员设计蛋白质时,是通过调整自然界中已知的蛋白质。但是ProteinMPNN的出现,可以让研究人员从头设计所有可能的蛋白质,这就打开了一个新世界。

ProteinMPNN帮助研究人员解决了逆向的问题——如果他们心中已经有了一个确切的蛋白质结构,它就能帮助他们找到能折叠成这个形状的氨基酸序列。ProteinMPNN使用的的是一个在很多折叠成三维结构的氨基酸序列中训练出来的神经网络。

ProteinMPNN: 基于AI的蛋白设计新算法

Baker的团队将蛋白质设计的挑战分解为三个部分,并且针对每个部分,都设计了特定的软件方案。

第一部分

首先,必须生成新的蛋白质形状。在 7 月 21 日发表在《科学》杂志上的一篇论文中,该团队表明人工智能可以通过两种方式生成新的蛋白质形状。

第一种被称为「幻想」(hallucination),类似于DALL-E或其他基于简单提示产生输出的生成AI工具。

通过「幻想」,用户可以在所有可能的蛋白质序列中进行随机搜索,并倾向于具有特定功能的序列。它使探索所有可能的蛋白质结构空间成为可能,这要归功于机器学习对庞大数据集的处理能力。

Baker对此解释道:「自然界中的蛋白质,只是采样很小的一部分,因此,如果你把搜索限制在自然界已经存在的那些序列上,你就不会有任何收获。」

Science | 华盛顿大学Baker实验室提出新方法设计全新蛋白质

使用「幻想」生成的对称环

第二种被称为「修复」(inpainting),类似于文字处理器中的自动完成功能,不过它针对的是蛋白质的结构和序列。

这种方法从功能位点开始填充额外的序列和结构,通过经过专门训练的RoseTTAFold网络在单次正向传递中创建可行的蛋白质支架。

用这两种方法,可以设计包含功能位点的候选免疫原、受体陷阱、酶活性位点等。

 

第二部分

其次,为了加快这一过程,Bakery团队设计了一种生成氨基酸序列的新算法。

在9月15日的Science上,他们介绍了这个名为ProteinMPNN的软件工具,它的运行时间大约为一秒。比起以前最好的软件,ProteinMPNN要快200多倍!

Science | 华盛顿大学Baker实验室提出新方法设计全新蛋白质

ProteinMPNN算法

 

ProteinMPNN不仅速度快,它的结果还优于以前的工具,并且不需要专家定制就可以运行。

「 如果你有大量数据,神经网络是很容易训练的,但是对于蛋白质,我们并没有那么多例子。我们必须深入其中,确定这些分子中哪些特征是最重要的。你需要反复试错。」蛋白质设计研究所的博后研究员Justas Dauparas说。

第三部分

在第三部分,该团队使用了由DeepMind开发的工具AlphaFold,来独立评估他们提出的氨基酸序列是否可以折叠成预期的形状。

「预测蛋白质结构的软件是解决方案的一部分,但它本身无法提出任何新东西。」Dauparas解释说。

「ProteinMPNN之于蛋白质设计,就像AlphaFold之于蛋白质结构预测。」Baker补充道。

在9月15日发表在Science上的另一篇论文中,Baker实验室的一个团队证实,使用新机器学习工具的组合,我们能够可靠地生成新的蛋白质,这些新蛋白质会在实验室中发挥作用。

「我们发现,使用ProteinMPNN制造的蛋白质更有可能按预期折叠,我们可以使用这些方法制造非常复杂的蛋白质组装体。」蛋白质设计研究所的博后研究员Basile Wicky说。

蛋白质设计的意义

利用这些新方法,研究人员创造出了一种在自然界中没有见过的全新蛋白质,比如一个巨大的纳米环。

Baker的团队正在试验,看这些环状结构是否可以用作定制纳米机械的部件。在电子显微镜下,这些环的直径大约比罂粟种子小十亿倍。或许在未来,这些纳米机器可以被用来疏通动脉。

使用机器学习来设计蛋白质,会让整个过程更快、更容易,并且让研究人员在更大的范围内创造出全新的蛋白质结构。这些软件比以前最好的工具还要快上200多倍,并且只需要最小的用户输入,这将大大降低蛋白质设计的门槛。

Science | 华盛顿大学Baker实验室提出新方法设计全新蛋白质

「这些研究正在改变整个生物分子结构预测和设计领域。」约翰霍普金斯大学化学和生物分子工程教授,同时也是Baker的前博士后,Jeffrey Gray说。「在理解生物学、健康和疾病上,以及设计新的分子减少人类自杀上,影响都是巨大的。」

Gray说,他的实验室正在将自己开发的深度学习工具与Baker团队的工具结合起来,以更好地了解免疫系统和免疫相关的疾病,并使用AI来设计治疗方法。

「AlphaFold通过解决蛋白质结构预测问题,将生物学带入了一个新时代,并展示了AI在生物学中发挥的革命性作用」。DeepMind的AI for Science团队负责人Pushmeet Kohli说。「ProteinMPNN是这种范式转变的另一个证明,从此我们可以为特定任务设计蛋白质」。

「这仅仅是机器学习在蛋白质设计中的一个开始。在接下来的几个月里,我们会努力改进这些工具,争取创造出更具动态性和功能性的蛋白质。」Baker说。

现在,ProteinMPNN可以在GitHub上免费使用了,研究人员可以用它创作出无限的新设计。

最后,Baker说:「现在,最有挑战性的地方在于……你要设计什么

作为复杂的大分子,蛋白质结构相关研究难度颇高。而人工智能的出场,可以大大提升蛋白质结构相关研究的效率,为生命科学领域的科学家们帮上大忙。几年前推出的“阿尔法折叠”,可以利用人工智能预测蛋白质的结构,曾一度震动生命科学界。如今,这项最新研究可以利用人工智能设计全新的蛋白质,更进一步彰显了人工智能在生命科学领域的巨大潜能。

 

来源:weixin_4528312

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年8月24日
下一篇 2022年8月24日

相关推荐