谷歌AlphaFold破译“上帝密码”,解答困扰人类50年难题

时间:2022-02-15 18:21:41   热度:37.1℃   作者:网络

对普通大众来说,谷歌AlphaFold似曾相识,而这份相识来源于它的孪生兄弟——打败围棋高手的AlphaGo。AlphaFold隶属于谷歌旗下的人工智能(Artificial Intelligence,AI)公司Deep Mind。Deep Mind联合创始人兼首席执行官Demis Hassabis表示:“Deep Mind的终极愿景是构建通用人工智能,用它来帮助我们更好地了解我们周围的世界,加快科学发现的步伐。”目前,Deep Mind拥有员工1000名左右,成立以来几无营收,俨然成为谷歌旗下最烧钱的公司。然而,Deep Mind已经与Facebook AI Research、微软和Open AI等公司一起成为全球AI竞赛的领导者。基于AlphaFold,谷歌又一次“搞事情”,将其人工智能应用于人类科学中最棘手的领域—生物学。 

2020年,在第14届国际蛋白质结构预测竞赛(Critical Assessment of Protein Structure Prediction,CASP)上,AlphaFold2成功根据基因序列预测了生命基本分子——蛋白质的三维结构,取得了中位分数为92.4(满分100分),比第二名高25分,打败了所有竞争对手。甚至可以分析X-射线晶体学很难解决的楔入细胞膜中的蛋白质结构,这是许多人类疾病的核心。CASP发起人之一穆尔特更是感叹:“我从未想过在我的有生之年可以见证这一伟大。”2020年11月30日,Deep Mind宣布:“AlphaFold2成功解开了一个困扰人类长达50年之久的生物学难题——蛋白质折叠问题。”2021年7月15日,关于AlphaFold2的论文在Nature上发表[1],并在Github上将AlphaFold2的代码开源[2],以及上线可搜索的物种蛋白质组数据库[3]。中国科学院院士施一公认为:AlphaFold2是人工智能对科学领域最大的一次贡献,也是人类在21世纪取得的最重要的科学突破之一。

图片

研究成果(图源:Nature)

AlphaFold2厉害在哪里?

颠覆医学的技术突破

蛋白质是生物体内一切功能的执行者,我们身体内的任何功能,从催化化学反应到抵御外来侵略都是蛋白质作用的结果;我们能行走、运动靠的是肌肉中肌动蛋白的工作;我们身体的骨架是由蛋白质骨胶原加强的;细胞的正常分裂或癌变也是通过蛋白质调节控制的。具有完整一级结构的多肽或蛋白质,只有当其折叠形成正确的三维空间结构才可能具有正常的生物学功能。如果这些生物大分子的折叠在体内发生了故障,形成错误的空间结构,不但将丧失其生物学功能,还会引起各种疾病,如:肺气肿、癌症、老年痴呆、帕金森氏症等。 

蛋白质一般是由几十到几百个氨基酸脱水缩合组成的多肽链,蛋白质氨基酸有22种,常见的有20种。在肽链上一个具体的位置为什么出现特定的氨基酸而不是别的氨基酸,以及为什么与这一氨基酸前后相连的氨基酸也是固定的?这与分子生物学中心法则密切相关:“DNA转录RNA、RNA翻译蛋白质。”具体来讲,DNA上储存的遗传信息,也就是碱基序列首先转录到RNA上,再由RNA上的碱基序列编码特定的氨基酸序列,以此构成蛋白质的物质基础。后来人们发现三个碱基形成一个密码子,对应编码某一具体的氨基酸,密码子在基因上的位置决定了氨基酸在肽链上的位置,形成了蛋白质的一级结构。但是,此时的线性结构还必须折叠形成天然三维结构之后才能具备承担活体生物所需的独特功能。然而,50多年来科学家对蛋白质如何从一维结构快速、准确地折叠成具有生物功能的天然三维结构的认知依然非常有限,这就是生物学领域著名的蛋白质折叠难题。

图片

中心法则(图源:[4])

蛋白质就像小巧精致的生物机器,而机器的结构决定了它的功能,因此揭示蛋白质的结构可以帮助我们理解蛋白质的功能。如果我们清楚蛋白质的结构,就能对其功能展开有根据的猜测。通过绘制大量蛋白质结构图,我们可以解读生命的生物学原理,并找到解决问题的根本方法。

目前开展蛋白质结构研究的主要途径为借助实验仪器解析蛋白质结构如:X-射线衍射、核磁共振技术、冷冻电镜技术以及智能计算预测。诺贝尔化学奖得主Christian Anfinsen,在1972年曾提出,基于蛋白质的1D氨基酸序列可计算并预测蛋白质的3D结构。然而,3D结构在形成之前会有数以亿计的折叠方式。有数据显示,一个典型的蛋白质大约有10300种可能的构型,如果用实验方法来计算所有可能的构型,可能花费的时间比宇宙都要长。通过实验方法确定蛋白质结构是一项耗时且艰苦的工作,而AlphaFold2证明了人工智能可以在短短几分钟内准确预测蛋白质结构,并且精确到原子级。

表1. 开展蛋白质结构研究的主要途径

图片

数据来源:医学与哲学杂志[5];制表:生物探索编辑团队 

以新冠疫苗为例:它的研发基础全在于我们绘制出了病毒表面用于入侵人体的细胞刺突蛋白的结构图。不妨把刺突蛋白的三维结构看作是一把锁,倘若我们能描绘出锁的形状,自然便可设计出钥匙,也就是药物或疫苗,来反制病毒。蛋白质的三维折叠形状以其一维的氨基酸序列为基础。如果AI擅长发现那些复杂氨基酸序列构建立体形状的模式(人类在这方面的能力较弱),那么它就有望替代那些成本极高的实验室技术。

从实用性角度来看,AlphaFold2的成功为我们攻克诸多重大疾病提供了助力。我们设计的几乎所有的药物都作用于蛋白质,如钥匙开锁般精确匹配,而此过程的第一步是确定哪把钥匙开哪把锁,用更专业的话说,就是寻找药物靶标,即弄清楚药物分子作用与何种蛋白结合。如果我们拥有可解码蛋白质结构的人工智能,就可快速筛选成千上万的新药物靶标。

AlphaFold2多领域技术革命

量身定制新蛋白

AlphaFold2对蛋白质结构的快速准确解析,可以使科学家们从头制造蛋白质,即自然界中不存在的蛋白质,其特性可根据所需的应用进行调整。通过AlphaFold2的计算,预测蛋白质将如何折叠,它们的稳定构象是什么,可以开辟一个全新的生物学研究领域。

2020年1月下旬,DeepMind的科学家们使用AlphaFold2绘制了SARS-COV-2病毒的蛋白质结构图——这些结构图后来被实验证实是准确的。随后,世界各地的病毒学家开始使用AlphaFold2对新冠病毒进行研究。加利福尼亚大学旧金山分校(美国加利福尼亚州)的研究人员使用AlphaFold2和低温电子显微镜分析了Nsp2,这是SARS-COV-2病毒中的一种蛋白质。这种特殊蛋白质的结构和功能尚不清楚,但使用AlphaFold2的结果表明它具有锌离子结合位点,表明这种蛋白质在RNA结合中起作用,这可能对进一步的研究产生影响。

在研究经费有限的项目中,AlphaFold2的免费资源是非常有帮助的。2021年6月,DeepMind与总部位于日内瓦的被忽视疾病药物计划(DNDi)建立新的合作伙伴关系。DNDi是一家非营利性制药组织,在过去18年中一直致力于解决发展中国家一些最致命的疾病,如昏睡病、南美锥虫病和利什曼病。AlphaFold2在寻找昏睡病的新疗法方面已经取得了相当大的成功:用安全的药物非西硝唑取代了美拉索丙醇(一种有毒化合物,导致每20名患者中有1人死亡),成为治疗该疾病的新标准。DNDi的药物化学家和项目负责人Ben Perry 说:“我们找到了安全的处理办法,并且适用于所有形式的疾病。”

DNDi和华盛顿大学、邓迪大学和葛兰素史克的一组传染病研究人员发现了一种分子,该分子能够与克氏锥虫上的一种蛋白质结合,这种寄生虫会导致南美锥虫病疾病。科学家想要研究这种蛋白质的结构,以准确了解药物如何阻止寄生虫发挥作用。在过去,这将是一项需要多年时间,且复杂而费力的实验任务,但通过AlphaFold2,DNDi和他们的合作者已经获得计算生成的对其结构的预测。现在可以利用这些知识来设计更多可以以不同方式与这种蛋白质结合并杀死克氏锥虫的药物。佩里说:“这可以让我们比几年前看起来更快地解决恰加斯病和利什曼病。如果你能快速获得这些蛋白质结构,你就可以设计多种候选药物,这样你就有很多目标可以用于临床试验。”

英国朴茨茅斯大学酶创新中心通过应用AlphaFold2设计了用于处理一次性塑料的蛋白质,这种蛋白质在自然界中并不存在。如果没有AlphaFold2的帮助,这种蛋白质将很难被发现。

AlphaFold2应用于制药领域存争议

算法仍需完善

AI结构预测的基本原理是将已知三维结构的蛋白质作为数据集进行大量训练,输入一个蛋白质的氨基酸序列推算其三维结构,并和该蛋白质的实验结构比对,以此强化机器深度学习能力和对未知蛋白质结构的预测能力。简言之,就是大数据+智能算法。AlphaFold2又进一步引入了新算法,而且在硬件上达到了16个TPU(tensor processing unit)级别,相当于100多个GPU(graphics processing unit)的计算机中央处理器,对所有17万种已知蛋白质结构进行了算法训练。 

也就是说,此次AlphaFold2所取得的惊人成绩完全离不开实验生物学家已经弄清楚结构的蛋白质作为其比较或学习的模板。而且,AlphaFold2蛋白质结构预测也并非解决了所有问题,即使在竞赛中,它明显地在一种蛋白质上摇摆不定,这种蛋白质由52个小重复片段组成,它们在组装时会扭曲彼此的位置。

所谓蛋白质结构预测也只是结构生物学研究的一个中间阶段,是指无论是实验结构解析还是 AI结构预测,其最终目的是理解生命机理。正如美国普林斯顿大学颜宁教授所讲:“结构生物学的主语是生物学,是理解生命,是做出生物学发现。”从亚原子到原子再到分子层面依然是物理化学过程,为什么分子层面的蛋白质及其组成的生命具有了化学活性且能够繁殖、演化?也就是说,分子层面的蛋白质发生了什么样的变化以及是如何变化的?解答这些问 题才接近理解生命。

但是正如上文所言,理解蛋白质功能必须理解其结构,而结构解析目前远远超出了人类的认知能力。也正因如此,很多实验生物学家将大量时间、精力投入到蛋白质结构实验解析上,也正因为这一进程发展缓慢且困难重重,才促使人们另辟蹊径,借助计算科学开展结构预测。在这个意义上说,实验解析或算法预测是开展蛋白质功能研究及认识生命机理的工具和手段,但是不能说因为在这方面目前还非常困难且是当下结构生物学的主要工作,作为工具和手段的结构解析或预测就成为了生物学的目的。要言之,AI在蛋白质结构预测领域做出了惊人的成绩,但这并不意味着AI明白地告诉了我们蛋白质折叠的过程与原理。

虽然AlphaFold2在CASP14上让评委们大开眼界,并且已经被用于各种研究领域,但这只是此类计算技术的开始。某一蛋白质可能存在10300个构象,但蛋白质是如何在瞬间自发地折叠成正确的形状,AlphaFold2仍无法对此做出解答。AlphaFold2目前代表了AI蛋白质预测的黄金标准,但随着这项技术的发展和演变,这一基准将继续提高。

准确预测蛋白质结构,在设计治疗方法的过程中是有益的,它使研究人员能够可视化目标蛋白质的形状。然而,目前AlphaFold2的局限性意味着药物设计领域仍未发生重大变化。预测较大的多域蛋白质复合物的形状并了解所有氨基酸侧链的位置对于设计药物分子很重要:这些是AlphaFold2目前难以预测的领域。最近的一篇论文还强调,虽然AlphaFold2预测的结构数据可能会缩短早期的研究时间,但不太可能彻底缩短新药从实验室到患者的时间。

参考资料:

[1]Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold. Nature. 2021 Aug; 596(7873):583-589. doi: 10.1038/s41586-021-03819-2. Epub 2021 Jul 15. PMID: 34265844; PMCID: PMC8371605. [2]GitHub - deepmind/alphafold: Open source code for AlphaFold. [3]AlphaFold Protein Structure Database. alphafold.ebi.ac.uk. [4]http://sciencewithmsjones.weebly.com/living-environment/central-dogma-of-genetics?fbclid=IwAR13Gz372IrbOBKoNi3BWheUb9gwbrCgW30oApkw1lEwl19EHLMkJ75lAzI]. [5]赵云波。AI预测可以代替科学实验吗?医学与哲学,2021。DOI:10.12014/j.issn.1002-0772.2021.06.04

上一篇: 9种封管液,应该怎么选?护士必备!

下一篇: 新一轮“双一流”名单公布,包含多所医学院...


 本站广告