网易科技10月9日报道,2024年诺贝尔化学奖刚刚揭晓。一半的奖项授予了 David Baker,以表彰他在计算蛋白质设计领域的贡献;另一半共同授予Demis Demis Hassabis和John M. Jumper,以表彰他们在利用人工智能预测蛋白质结构方面取得的杰出成就。
Hassabis 和 Jamper 的工作展示了人工智能在生命科学领域的巨大潜力。人工智能不仅加速了对复杂生物过程的理解,还为药物开发提供了新工具。通过准确预测蛋白质结构,人工智能使科学家能够更有效地设计新药并改善人类健康。
另一位获奖者大卫·贝克 (David Baker) 专注于从头开始设计蛋白质。作为蛋白质设计领域的先驱,他不仅开发了可以预测蛋白质结构的算法,还通过计算设计了自然界中不存在的新蛋白质。它不仅推动了基础生物学的发展,也给生物制药领域带来了前所未有的创新可能。
该奖项的获奖凸显了人工智能在推动生命科学前沿突破,特别是在复杂蛋白质结构的预测和设计方面的重要作用。
蛋白质是生命的核心组成部分,其三维结构决定功能。然而,研究和预测蛋白质结构传统上依赖于 X 射线晶体学和冷冻电镜等实验方法。这些方法不仅耗时、昂贵,而且不适合某些无法结晶的蛋白质类型。
Demis Hassabis 和 John Jamper 领导的 DeepMind 团队于 2020 年推出了 AlphaFold2 系统。该系统利用 AI 从氨基酸序列出发直接预测蛋白质的三维结构,精度接近实验水平。
这一突破解决了困扰科学界数十年的“蛋白质折叠问题”,大大加速了生物学和医学领域的研究进展。迄今为止,AlphaFold2已成功预测了超过2亿个蛋白质的结构,帮助研究人员在疟疾疫苗、癌症治疗、酶设计等领域取得重要进展。
今年,DeepMind 和 Isomorphic Labs 发布了新一代 AlphaFold3,在准确预测所有生命分子(包括蛋白质、DNA、RNA、配体等)的结构和相互作用方面取得了更大突破。
这场人工智能与生物科学相结合的革命才刚刚开始。 (袁宁)
以下内容来自诺贝尔奖官方介绍:(向AI学者致敬,本介绍由AI翻译,网易校对)
2024年诺贝尔化学奖——科普背景
他们通过计算和人工智能揭示蛋白质秘密
化学家长期以来一直梦想着完全理解和掌握生命的化学工具——蛋白质。现在,这个梦想已经触手可及。 Demis Hassabis 和 John Jumper 成功地利用人工智能来预测几乎所有已知蛋白质的结构。大卫·贝克(David Baker)弄清楚了如何创造全新的蛋白质。发现的潜力是巨大的。
生命的多彩化学是如何实现的?答案是蛋白质,它可谓巧妙的化学工具。蛋白质通常由 20 种氨基酸组成,而氨基酸可以以无数种方式组合。 DNA 中存储的信息充当氨基酸在细胞内连接形成长链的蓝图。
然后,蛋白质的魔力发生了:氨基酸链扭曲并折叠成独特的三维结构。这种结构赋予蛋白质其功能。有些成为化学构件,形成肌肉、角或羽毛;有些则成为化学构件,形成肌肉、角或羽毛。其他的变成激素或抗体;许多蛋白质形成驱动生命化学反应的酶。位于细胞表面的蛋白质也非常重要,充当细胞与其周围环境之间的沟通渠道。
这 20 种氨基酸是生命的化学组成部分,其潜力怎么估计都不为过。 2024 年诺贝尔化学奖探索了如何在全新水平上理解和掌握它们。 Hassabis 和 Jemper 利用人工智能解决了化学家 50 多年来都没有解决的问题:如何根据氨基酸序列预测蛋白质的三维结构。他们成功预测了几乎所有 2 亿种已知蛋白质的结构。另一方面,贝克创造了从未存在过的全新蛋白质,其中许多具有全新的功能。
蛋白质的初始模糊图像
自 19 世纪起,化学家就知道蛋白质对生命过程的重要性,但直到 20 世纪 50 年代,化学工具才足够精确,使研究人员能够开始更详细地探索蛋白质。剑桥大学研究人员 John Kendrew 和 Max Perutz 在 20 世纪 50 年代末利用 X 射线晶体学成功展示了第一个蛋白质三维模型。这一突破性的发现为他们赢得了 1962 年诺贝尔化学奖。
随后,研究人员主要依靠X射线晶体学,经过努力,成功获得了约20万种不同蛋白质的图像,为获得2024年诺贝尔化学奖奠定了基础。
谜题:蛋白质如何找到其独特的结构?
美国科学家克里斯蒂安·安芬森又做出了一项早期发现。他使用各种化学技术来展开和重新折叠现有的蛋白质,导致蛋白质每次都折叠成完全相同的形状。 1961年,他得出结论:蛋白质的三维结构完全由其氨基酸序列决定。由于这一发现,安芬森获得了 1972 年诺贝尔化学奖。
然而,安芬森的逻辑却包含着一个悖论,正如另一位美国科学家赛勒斯·莱文塔尔(Cyrus Levinthal)在1969年指出的那样,即使蛋白质仅由100个氨基酸组成,理论上也可以假设至少有10^47种不同的三维结构。如果氨基酸链随机折叠,可能需要比宇宙年龄更长的时间才能找到正确的蛋白质结构。但在细胞中,这个过程只需要几毫秒。那么,氨基酸链是如何折叠的呢?
安芬森的发现和莱文塔尔悖论表明折叠是一个预先确定的过程,重要的是,有关蛋白质如何折叠的所有信息都必须存在于氨基酸序列中。
化学的巨大挑战:预测问题
这些见解导致了另一个重大的认识——如果化学家知道蛋白质的氨基酸序列,他们应该能够预测其三维结构。这是一个令人兴奋的想法。如果成功,他们将不再需要繁琐的 X 射线晶体学,从而节省大量时间。他们还能够生成 X 射线晶体学无法应用的所有蛋白质结构。
这些合乎逻辑的结论揭示了已成为生物化学领域重大挑战的预测问题。为了促进该领域的快速发展,1994年,研究人员启动了一个名为“蛋白质结构预测批判性评估”(CASP)的项目,该项目最终发展成为一项竞赛。每两年,世界各地的研究人员都会获得具有新确定结构的蛋白质的氨基酸序列,但这些结构对参与者保密。挑战是根据已知的氨基酸序列预测这些蛋白质的结构。
CASP吸引了许多研究人员,但事实证明解决预测问题极其困难。研究人员提交的预测与实际结构相匹配,几乎没有改进。直到2018年,围棋大师、神经科学专家、人工智能领域先驱Demis Hassabis才进入该领域并迎来突破。
棋盘大师参加蛋白质奥林匹克竞赛
我们先简单介绍一下德米斯·哈萨比斯的背景:他四岁开始学习国际象棋,十三岁达到大师水平。青少年时期,他开始了编程生涯,成为一名成功的游戏开发者,然后开始探索人工智能并深入研究神经科学领域,取得了多项革命性的发现。他利用对大脑的研究来开发更好的神经网络模型。 2010年,他与他人共同创立了DeepMind公司,该公司开发专为棋盘游戏设计的一流人工智能模型。 2014年,该公司被谷歌收购,两年后,DeepMind凭借击败围棋世界冠军的壮举而受到全球关注,这一成就在当时被许多人认为是人工智能的“圣杯”。
然而,哈萨比斯的目标不是围棋,他认为围棋是开发更好的人工智能模型的一种手段。击败围棋冠军后,他的团队准备迎接对人类更重要的问题的挑战。因此,2018年,哈萨比斯报名参加第13届CASP比赛。
哈萨比斯的人工智能模型出人意料地获胜
前几年,研究人员能够预测 CASP 中的蛋白质结构,准确率最多只有 40%。 Hassabis 团队凭借 AI 模型 AlphaFold 实现了近 60% 的准确率,并赢得了比赛。优异的结果让很多人感到惊讶——这是意想不到的进步,但离成功还有一段距离。要真正成功,预测精度必须达到 90% 才能匹配目标结构。
AlphaFold2 模型的工作原理
在 AlphaFold2 的开发过程中,AI 模型接受了所有已知氨基酸序列和蛋白质结构的训练。当遇到未知结构的氨基酸序列时,AlphaFold2会在数据库中搜索相似的氨基酸序列和蛋白质结构。该模型比对所有相似的氨基酸序列(通常来自不同物种),并研究哪些部分在进化过程中被保守。使用这些分析,AlphaFold2 生成一个距离图,估计结构中氨基酸的相对距离。
接下来,AlphaFold2 探索了哪些氨基酸可能在三维蛋白质结构中相互作用。相互作用的氨基酸在进化中共同进化。如果一个带电荷,另一个就会带相反电荷,相互吸引。如果一种氨基酸被疏水性氨基酸取代,另一种也将变得疏水性。
通过反复迭代,AlphaFold2不断优化序列分析和距离图。人工智能模型使用称为 Transformer 的神经网络,它在发现大量数据中的重要模式方面非常强大。该模型还利用了步骤 1 中发现的其他蛋白质结构数据。AlphaFold2 将所有氨基酸组合在一起形成一个谜题,测试生成假设蛋白质结构的路径,并一遍又一遍地运行该过程。经过三轮迭代,AlphaFold2已经达到了确定的结构,AI模型会计算不同部分与实际情况的匹配概率。
约翰·詹珀接受挑战
Hassabis 和他的团队继续开发 AlphaFold 模型,但无论他们如何努力,算法始终没有完全突破。他们被困住了,团队也很疲惫。这时,一位相对较新的员工 John Jemper 提出了一些关键想法来帮助改进 AI 模型。
詹珀对宇宙的迷恋促使他研究物理和数学。然而,2008 年,当他在一家使用超级计算机模拟蛋白质及其动力学的公司工作时,他意识到物理知识可以帮助解决医学问题。 2011 年,Jemper 开始攻读理论物理学博士学位,在那里他开发了模拟蛋白质动力学的更简单方法,并迅速接受了生物化学领域的重大挑战。 2017 年,Jemper 听说 Google DeepMind 已经秘密开始预测蛋白质结构。他立即申请了一份工作,并根据自己的蛋白质模拟经验提供了想法,这导致了 AlphaFold 模型的根本性改革。
惊人的结果:AlphaFold2 模型的成功
新版本的 AlphaFold2 受到 Gemper 对蛋白质深入理解的影响,团队开始使用 Transformer 神经网络,这是人工智能领域最近的重大突破。这些网络比以前的任何方法都更加灵活,能够在大量数据中找到模式并确定重点关注何处以实现特定目标。
经过对所有已知蛋白质结构和氨基酸序列的大量数据进行训练后,AlphaFold2在第14届CASP竞赛中取得了惊人的成绩。 2020年,当CASP组织者评估结果时,他们意识到生物化学界50年的挑战终于得到了解决。在大多数情况下,AlphaFold2 的表现与 X 射线晶体学几乎惊人地一致。 2020 年 12 月 4 日,CASP 创始人之一约翰·莫尔特 (John Moult) 在结束比赛时问道:“接下来做什么?”
回到另一位CASP参与者:诺贝尔化学奖的另一半
现在我们回到过去,关注另一位 CASP 参与者。让我们介绍一下2024年诺贝尔化学奖的另一半,它是关于从头开始创造新蛋白质的艺术。
一本细胞学教科书改变了大卫·贝克的方向
当大卫·贝克开始在哈佛大学学习时,他选择了哲学和社会科学。然而,在进化生物学课程中,他遇到了现在的经典著作《分子生物学的细胞》的第一版。这本书改变了他的人生方向。他开始探索细胞生物学,并最终对蛋白质结构产生了兴趣。 1993年,当他成为西雅图华盛顿大学研究小组组长时,他开始接受生物化学领域的巨大挑战。通过精心设计的实验,他开始探索蛋白质如何折叠。这些见解为他在 20 世纪 90 年代末开发 Rosetta(一种预测蛋白质结构的软件)奠定了基础。
贝克成为蛋白质设计师
贝克于1998年首次参加CASP比赛,带着“Rosetta”,与其他参赛者相比表现相当出色。这一成功激发了一个新想法:贝克的团队可以反向使用该软件。他们不应该将氨基酸序列输入 Rosetta 并输出蛋白质结构,而应该能够输入所需的蛋白质结构,为其氨基酸序列生成建议,从而创建全新的蛋白质。
来自贝克实验室的独特蛋白质
蛋白质设计领域始于 20 世纪 90 年代末,研究人员在此领域创建具有新功能的定制蛋白质。在许多情况下,研究人员会调整现有的蛋白质,以便它们能够执行分解有害物质或用作化学制造工具等任务。
然而,自然界中发现的蛋白质类型是有限的。为了增加获得具有全新功能的蛋白质的潜力,贝克的研究小组希望从头开始设计蛋白质。正如贝克所说:“如果你想建造一架飞机,你不应该从改造一只鸟开始;相反,你应该了解空气动力学的基本原理,并根据这些原理建造一架飞行器。”
一种独特的蛋白质诞生了
完全从头开始构建新蛋白质的领域称为“从头设计”。研究小组绘制了蛋白质的全新结构,并要求 Rosetta 计算哪些氨基酸序列可以产生所需的蛋白质。为此,Rosetta 搜索所有已知蛋白质结构的数据库,寻找与目标结构相似的蛋白质片段。然后,利用对蛋白质能量景观的基本了解,Rosetta 优化了这些片段并提出了氨基酸序列的建议。
为了验证该软件的成功,贝克的研究小组将提议的氨基酸序列的基因引入细菌中,细菌产生了所需的蛋白质。然后他们使用 X 射线晶体学来确定蛋白质结构。
结果表明,Rosetta 确实能够构建蛋白质。研究人员开发的Top7蛋白与他们设计的结构几乎完全匹配。
贝克实验室的惊人创作
对于蛋白质设计研究人员来说,Top7 是一个惊喜。以前设计的从头蛋白质只能模仿现有的结构。 Top7的独特结构在自然界中并不存在。此外,Top7 含有 93 个氨基酸,比之前通过从头设计生成的任何蛋白质都要大。
贝克于 2003 年发表了这一发现。这是所谓“显着发展”的第一步; Baker 实验室创造的许多令人惊叹的蛋白质如图 4 所示。他还公开了 Rosetta 的代码,全球研究界继续开发该软件并寻找新的应用领域。
曾经需要数年时间的事情现在只需几分钟
Demis Hassabis 和 John Jemper 确认 AlphaFold2 确实有效后,他们计算了所有人类蛋白质的结构。然后他们预测了研究人员迄今为止发现的几乎所有 2 亿种蛋白质的结构。
谷歌 DeepMind 还公开了 AlphaFold2 的代码,任何人都可以访问。如今,这个人工智能模型已成为研究人员的宝库。截至2024年10月,AlphaFold2已被来自190个国家的超过200万人使用。过去,获得蛋白质结构往往需要数年时间,有时甚至是不可能获得的。今天,这个过程只需要几分钟。虽然人工智能模型并不完美,但它可以估计生成结构的准确性,让研究人员知道预测的可靠性。图 5 显示了 AlphaFold2 如何帮助研究人员的众多示例中的一些。
David Baker 实验室的 Rosetta 也受益于人工智能的突破
2020年CASP竞赛之后,当David Baker意识到基于Transformer的AI模型的潜力时,他也将其引入到Rosetta中,极大地促进了从头蛋白质设计的发展。近年来,贝克实验室创造了一种又一种令人惊奇的蛋白质(其中一些如图 4 所示)。
令人瞩目的发展造福人类
作为化学工具的蛋白质的惊人多样性反映了生命的巨大多样性。令人惊讶的是,我们现在可以轻松地可视化这些小分子机器的结构;它使我们能够更好地了解生命的运作方式,包括某些疾病如何发展、抗生素耐药性如何发展,或者为什么某些微生物能够分解塑料。
创造具有新功能的蛋白质的能力同样令人震惊。这可能会带来新的纳米材料、靶向药物、更快的疫苗开发、极小的传感器和更绿色的化学工业——仅举几个将极大造福人类的应用。
下一步:2024 年诺贝尔化学奖的未来意义
Demis Hassabis、John Jemper 和 David Baker 的工作展示了如何通过结合计算、人工智能和生物化学来揭开蛋白质的奥秘。蛋白质的复杂性,以及通过智能算法快速预测或设计它们的能力,意味着未来我们可能在医学、环境科学和材料科学等领域实现革命性突破。
评论(0)