您的位置:首页 >知识精选 >正文

新蛋白质设计的深度学习

摘要 了解蛋白质的关键非常简单。确定它们的化学结构并找出哪些其他蛋白质可以与它们结合。但有一个问题。蛋白质的搜索空间是巨大的, 华盛顿大...

了解蛋白质的关键非常简单。确定它们的化学结构并找出哪些其他蛋白质可以与它们结合。但有一个问题。

“蛋白质的搜索空间是巨大的,” 华盛顿大学蛋白质设计研究所和霍华德休斯医学研究所的研究科学家 布莱恩考文垂说。

他的实验室研究的蛋白质通常由 65 个氨基酸组成,每个位置有 20 种不同的氨基酸选择,有 65 的 20 次方结合组合,这个数字比宇宙中估计的原子数还要大。

考文垂是 2023 年 5 月发表在《自然通讯》 杂志上的一项研究的合著者 。

在其中,他的团队使用深度学习方法来增强“从头开始”或从头开始计算蛋白质设计中现有的基于能量的物理模型,从而使实验室验证的将设计的蛋白质与其结合的成功率提高了 10 倍。目标蛋白。

该研究的合著者、该研究所的博士后学者纳撒尼尔·贝内特 (Nathaniel Bennett) 表示:“我们表明,通过结合深度学习方法来评估氢键形成或疏水相互作用的界面质量,可以显着改善管道 。”蛋白质设计,华盛顿大学。

他补充道:“这与试图准确地列举所有这些能量相反。”

读者可能熟悉深度学习应用程序的流行示例,例如语言模型 ChatGPT 或图像生成器 DALL-E。

深度学习使用计算机算法来分析数据模式并进行推断,对算法进行分层以逐步从原始输入中提取更高级别的特征。在这项研究中,深度学习方法被用来学习蛋白质序列表示和可能结构的迭代转换,这些迭代转换非常快速地收敛到非常准确的模型上。

作者开发的深度学习增强从头蛋白质结合剂设计方案包括机器学习软件工具 AlphaFold 2 和 由蛋白质设计研究所开发的RoseTTA Fold 。

研究合著者 、蛋白质设计研究所所长、霍华德休斯医学研究所研究员 David Baker获得了 德克萨斯高级计算中心 (TACC) Frontera 超级计算机的Pathways 拨款,该计算机由国家科学基金会资助。

该研究问题非常适合 Frontera 上的并行化 ,因为蛋白质设计轨迹都是相互独立的,这意味着在计算作业运行时信息不需要在设计轨迹之间传递。

“我们只是将这个问题进行拆分,其中包含 2 到 600 万个设计,并在 Frontera 的海量计算资源上并行运行所有这些设计。它上面有大量的CPU节点。我们分配每个 CPU 来执行其中一个设计轨迹,这让我们在可行的时间内完成了极大量的设计轨迹。”Bennett 说道。

作者使用 RifDock 对接程序生成了 600 万个蛋白质“对接”,或潜在结合的蛋白质结构之间的相互作用,将它们分成大约 100,000 个块,并使用 Linux 实用程序将每个块分配给 Frontera 的 8000 多个计算节点之一。

这 100,000 个码头中的每一个都将被分为 100 个工作,每个工作有 1000 个蛋白质。一千种蛋白质被输入计算设计软件 Rosetta,其中 1,000 种蛋白质首先以秒级的十分之一进行筛选,而存活下来的蛋白质则以几分钟的尺度进行筛选。

更重要的是,作者使用 蛋白质设计研究所开发的 软件工具ProteinMPNN ,进一步提高了生成蛋白质序列神经网络的计算效率,比之前最好的软件快了 200 倍以上。

版权声明:本文由用户上传,如有侵权请联系删除!