药物发现规模空前
通过机器学习促进虚拟筛选,将15.6 亿个药物样分子的处理时间缩短了 10 倍。 东芬兰大学的研究人员与工业界和超级计算机合作,进行了世界上最大的虚拟药物筛查之一。
在寻找新药物分子的过程中,研究人员通常依靠对大型化合物库进行快速计算机辅助筛选来识别可以阻断药物靶点的药物。例如,这样的目标可以是使细菌能够抵抗抗生素的酶或使病能够感染其宿主的酶。这些小有机分子集合的大小在过去几年中急剧增加。由于化合物库的增长速度快于处理它们所需的计算机速度,即使使用最先进的超级计算机,仅针对单个药物靶标筛选现代数十亿级化合物库也可能需要数月或数年的时间。因此,显然迫切需要更快的方法。
在最近发表在《化学信息与建模杂志》上的一项研究中,东芬兰大学药学院的 Ina Pöhner 博士及其同事与芬兰强大的超级计算机的主办组织 CSC(IT Center for Science Ltd.)和工业界合作Orion Pharma 的合作者研究机器学习在加速千兆级虚拟屏幕方面的前景。
在应用人工智能加速筛选之前,研究人员首先建立了一个基线:在规模空前的虚拟筛选活动中,在超级计算机 Mahti 和Puhti和分子对接。对接是一种计算技术,可将小分子安装到目标的结合区域中,并计算“对接分数”以表达它们的配合程度。这样,首先确定了所有 15.6 亿个分子的对接分数。
接下来,将结果与使用 HASTEN 的机器学习增强屏幕进行比较,HASTEN 是该研究的合著者 Orion Pharma 的Tuomo Kalliokoski博士开发的工具。“HASTEN 使用机器学习来了解分子的特性以及这些特性如何影响化合物的得分。当提供足够多的传统对接示例时,机器学习模型可以比强力对接方法更快地预测库中其他化合物的对接分数,”Kalliokoski 解释道。
事实上,仅对接整个库的 1% 并将其用作训练数据,该工具就在不到 10 天内正确识别了 90% 的最佳得分化合物。
该研究首次对机器学习增强的对接工具与千兆规模的传统对接基线进行了严格比较。“我们发现机器学习增强的工具能够在显着缩短的时间范围内可靠地、重复地重现通过传统对接识别出的大多数得分最高的化合物,”Pöhner 说。
“这个项目是学术界和工业界合作的一个很好的例子,也是 CSC 如何提供世界上最好的计算资源之一的一个很好的例子。通过结合我们的想法、资源和技术,我们有可能实现我们雄心勃勃的目标。”东芬兰大学药物技术研究社区计算药物发现小组的负责人Antti Poso教授继续说道。
在大多数情况下,类似规模的研究仍然难以捉摸。因此,作者将作为研究的一部分生成的大型数据集发布到公共领域:他们的即用型对接筛选库使其他人能够加快各自的筛选工作,以及他们两个人的全部 15.6 亿个化合物对接结果目标作为基准数据。这些数据将鼓励未来开发节省时间和资源的工具,并最终推动计算药物发现领域的发展。
版权声明:本文由用户上传,如有侵权请联系删除!