Google 旗下的专业AI企业DeepMind声称他们取得了“重要的里程碑”,并展示了AI在使用基因序列来预测蛋白质三维结构等复杂任务方面的实用性。

了解蛋白质结构在疾病诊断和治疗中非常重要,可以提高科学家对人体的认识,并有助于支持蛋白质设计和生物工程。

DeepMind在一篇关于使用AI来预测蛋白质如何折叠的项目博客文章写道:“AlphaFold——DeepMind的AI工具——生成的蛋白质三维模型比以往的任何蛋白质都更加准确,这在生物学的一个核心挑战方面取得了重大进展。”

我们有各种各样的科学方法来预测DNA中残留氨基酸的蛋白质分子的自然三维状态(即蛋白质链如何折叠以达到自然状态)。

但是对三维结构进行建模是一项非常复杂的任务,因为蛋白质折叠可能存在多少序列,这取决于诸如氨基酸之间的相互作用等因素。

甚至还有一个名为FoldIt的众包游戏试图利用人类的直觉来预测可行的蛋白质形态。

DeepMind表示,其方法基于多年前使用大数据来试图预测蛋白质结构的研究。

具体而言,他们正在将深度学习方法应用到基因组数据方面。

博客文章中写道:“幸运的是,由于基因测序成本的快速降低,所以基因组学领域的数据非常丰富。因此,在过去几年中,基于基因组数据预测问题的深度学习方法变得越来越受欢迎。DeepMind在这一方面的努力给我们带来了AlphaFold,我们也在今年将其提交给了CASP(蛋白质结构预测技术关键评估的社区试验)。”

“我们很自豪能成为CASP组织者所称的‘在使用计算方法来预测蛋白质结构能力方面取得了前所未有的进步’,并在所有参赛团队中排名第一(我们的参赛作品是A7D)。”

博客文章还写道:“我们的团队专注于对目标形状进行建模的难题,而不使用之前已经解决的蛋白质作为模板。我们在预测蛋白质结构的物理特性时达到了高度的准确性,然后使用两种不同的方法来预测完整的蛋白质结构。”

DeepMind表示,他们使用的两种方法依赖于使用经过训练的深度神经网络来预测其基因序列中的蛋白质特性。

“我们的网络所预测到的特性是:(a)多肽之间的距离和(b)连接这些氨基酸的化学键之间的角度。第一个发展是常用技术的进步,这些技术可以估计肽键是否彼此接近。”博客解释道。

“我们训练了一个神经网络来预测每对蛋白质残基之间距离的单独分布,然后将这些概率组合成一个分数,该分数可以评估所提出的蛋白质结构的准确度。我们还训练了一个单独的神经网络,它使用了总距离来估计提出的结构与正确答案的接近程度。”

然后,它使用了新方法来尝试预测蛋白质结构,并搜索与其预测相匹配的已知结构。

博客中写道:“我们的第一种方法建立在结构生物学中常用的技术上,并且用新的蛋白质片段反复替换蛋白质结构的片段。我们训练了一个生成神经网络来发明新的片段,用于不断提高所提出的蛋白质结构的分数。”

“第二种方法通过梯度下降(一种常用于机器学习的数学技术,用于进行小的、增量的改进)来优化分数,这就带来了高度精确的结构。这项技术适用于整个多肽链,而不适用于必须在组装前单独折叠的片段,这降低了预测过程的复杂性。”

DeepMind将迄今为止使用计算方法所取得的成果描述为“蛋白质折叠进展的早期迹象”,并表示他们展示了“AI在科学发现方面的实用性”。

虽然他们也强调深度学习方法仍处于早期阶段,但是还具有任何“可量化的影响”。

“尽管在我们能够对治疗疾病、管理环境等方面产生可量化的影响之前还有很多工作要做,但我们知道这种潜力是巨大的,”博客中写道:“我们的专业团队专注于深入研究机器学习如何推动科学世界的发展,我们期待看到我们的技术会带来什么样的改变。”

原文作者:Natasha Lomas

信息化和软件服务网 - 助力数字中国建设 | 责编:赵曜 左右