乾明 发自 凹非寺
量子位 报道 | 公众号 QbitAI
疫情全球化蔓延之下,世界最顶级的AI研究机构加入抗疫阵列。
DeepMind利用其最新版本的AlphaFold系统,发现几种与新冠病毒(SARS-CoV-2)相关的蛋白质的结构预测,并在今天对所有人公开。
他们表示,这些蛋白质结构还尚未被专家研究,希望能够对抗疫科研作出贡献。
“在共享的蛋白质数据库中,我们的系统准确地为SARS-CoV-2刺突蛋白提供了预测实验,这使我们相信,我们对其他蛋白质的模型预测可能是有用的。”DeepMind在博客文章中写道。
DeepMind的底气,来自于AlphaFold——这个2018年12月问世便惊呆科学家的系统,它主要功能是用人工智能加速科学发现。
在2018年的“蛋白质结构预测奥运会”CASP比赛中,力压其他97个参赛者,是第二名成绩的8倍还要多。
所以在华盛顿大学利用蛋白质游戏Foldit,集众智对抗新冠病毒之后,不少人纷纷发问:为什么AlphaFold没有出现?
现在,它来了。
DeepMind出手,用AlphaFold抗疫
“我们感激许多其他实验室的工作,如果没有全球各地的研究人员的努力,这项工作是不可能的,”DeepMind表示。
正是在全球各地,尤其是中国公开新冠病毒研究资料的情况下,他们才能够得以发现如此成果。
AlphaFold问世以来,DeepMind一直在优化系统,希望其能够更加强大。对SARS-CoV-2相关蛋白结构预测,是他们最新研究成果的体现。
他们的模型中,还包括每个残差的置信度,来帮助指出结构的哪些部分更有可能是正确的。
但DeepMind也补充道,只提供了缺乏合适模板或模板建模困难的蛋白质的预测,这些未被科学家研究的蛋白质,可能不是当前的焦点,但可能有助于研究人员理解SARS-CoV-2。
通常情况下,了解一种蛋白质的结构,能为理解它的功能提供重要的资源,但要确定这种结构,可能需要几个月甚至更长时间的实验。
现在,DeepMind已经将他们的蛋白结构预测放到了网络上,供全球各地研究人员免费下载(链接在文末)。
DeepMind为什么能够这么快?背后的力量来自于AlphaFold。
AlphaFold如何实现加速度?
与传统预测蛋白质3D结构的方法不同,AlphaFold仅仅基于蛋白质的基因序列,就能预测蛋白质的3D结构。
这是一个非常复杂任务。
基因序列中只包含蛋白质组成部分氨基酸残基的序列信息,这些氨基酸残基会形成长链。预测这些长链如何折叠成复杂的3D结构,被称为“蛋白质折叠问题”(protein folding problem)。
蛋白质越大,氨基酸之间的相互作用越多,建模也就更复杂,困难度也会成倍上升。
正如利文索尔佯谬(Levinthal’s paradox)中指出的那样,在找到一个蛋白质正确的3D结构之前,要列举一个典型的蛋白质所有可能的构型,需要的时间比宇宙存在的时间还要长。
DeepMind引入神经网络来解决这些问题。
首先,他们训练了一个神经网络,用来预测蛋白质中每对残基之间的距离分布。然后,将这些概率组合成一个分数,用来估计一个蛋白质结构的准确度。
此外,DeepMind还训练了一个单独的神经网络,基于所有距离的总和,来评估初步给出的蛋白质结构与正确答案的接近程度,并基于这些评分函数,去找到符合预测的结构。
神经网络模型的加持,以及庞大的算力驱动,AlphaFold不仅用时更短,而且结果比以前的任何模型都要精确,2018年亮相之后一举引发全球关注。
从那时到现在,DeepMind一直在投入资源优化AlphaFold。
现在疫情全球化肆虐,各大科技巨头纷纷卷入其中,没有谁能够独善其身,也是时候贡献力量共同抗疫了。
而且,这同样是对他们技术的一次验证:实验中效果很强,但实际中怎么样呢?
该出来遛遛了~