谢天谢地,刚刚颁布的诺贝尔文学奖未给到 ChatGPT ——在今年诺奖科学奖的角逐里,AI 已经出尽了风头。
10 月 8 日,"AI 教父 " 斩获物理学奖,舆论哗然,9 日,化学奖评选委员会再接再厉,将奖项颁发给 AI 在解析蛋白质结构和设计中的颠覆性应用。
诺贝尔化学奖一半授予美国生物化学家、华盛顿大学蛋白设计所主任 David Baker,他开发一种算法,从头开始设计全新的蛋白质,堪比创造生物的 " 上帝之手 ";另一半授予谷歌 DeepMind 首席执行官 Demis Hassabis 和谷歌 DeepMind 高级研究科学家 John M. Jumper,他们应用 AlphaFold,从氨基酸序列预测几乎所有已知的 2 亿种蛋白质的三维结构,作为两位 AI 工业界人士,达成了生物化学家们 50 多年来的夙愿。
2024 年度诺贝尔化学奖揭晓,一半授予 David Baker,另一半共同授予 Demis Hassabis 和 John M. Jumper
这届诺奖科学奖,人类一败涂地。不是 " 组委会真的太懂流量 ",是通过计算和人工智能 " 给家人们把时间和价格打下来 ",极大提升蛋白质研究的效率,这对人类来说是最大的福祉。
在 " 下一步,经济学奖给黄仁勋,和平奖给马斯克,格莱美给 Suno,奥斯卡给 Sora" 的调侃声里,我们的确持续见证着 AI 改变世界的浪潮。
" 降本增效 "
读过高中生物必修 1 的朋友们都知道,一切生命活动都离不开蛋白质,它们通常由 20 种氨基酸组成,氨基酸以存储在 DNA 中的信息作为蓝图,在细胞中 " 组合 "" 连接 " 成长链。
高中生物必修 1 中讲到,蛋白质是生命活动的主要承担者
接下来就是见证蛋白质奇迹的时刻:氨基酸链会扭曲并折叠成独特的三维结构,正是这种结构赋予了蛋白质特异的生物功能,使其成为生命的基本单元。
有些蛋白质可以构建肌肉、角或羽毛,有些则可能成为激素或抗体,还有蛋白质会形成酶或在细胞表面充当其与其周围环境间的信号传递通道。
19 世纪以来,化学家们就意识到蛋白质对生命的重要性,但直到 20 世纪 50 年代,化学工具才足够精确,此后蛋白质结构研究成为诺奖 " 顶流 " 领域。
借助 X 射线晶体学(X-ray crystallography)方法于 50 年代末首次呈现出蛋白质的三维模型的成就,于 1962 年获颁诺贝尔化学奖。但这种方法相当耗时,此后研究人员付出了大量努力,绘制出了约 20 万种不同蛋白质的图像。
1962 年,英国蛋白质晶体学家佩鲁茨呈现出血红蛋白的三维图象
同期,美国科学家 Christian Anfinsen 通过各种化学技巧,成功使一个现有蛋白质展开然后再次折叠起来。有趣的是,蛋白质每次都呈现出完全相同的形状。
1961 年他得出结论,蛋白质的三维结构完全由氨基酸序列决定,这项发现使他在 1972 年获得了诺贝尔化学奖。
但另一位美国科学家 Cyrus Levinthal 提出了质疑:即使一个蛋白质只由 100 个氨基酸组成,理论上该蛋白质至少可以呈现 10^47 种不同的三维结构。如果氨基酸链是随机折叠的,找到正确结构的时间会比宇宙年龄还要长,但这在细胞中仅需几毫秒。
那么氨基酸链究竟是如何折叠的呢?Anfinsen 的发现和 Levinthal 的质疑共同指向了一个事实:氨基酸链折叠是一个预定的过程,更重要的是,关于蛋白质如何折叠的所有信息一定存在于氨基酸序列中。
蛋白质折叠示意图
这意味着,如果化学家知道蛋白质的氨基酸序列,就应该能够预测蛋白质的三维结构。一旦如此,他们就不必使用繁琐的 X 射线晶体学来预测蛋白质结构了,毕竟过去弄清一个晶体结构往往都会消耗一个博士生的整个求学生涯,这可以节省大量时间,还能够为不适用 X 射线晶体学的蛋白质生成结构。
1994 年起,蛋白质结构预测关键评估(CASP)项目应运而生,变成一场比赛。每隔一年,研究人员都可以获得结构刚被测定的蛋白质的氨基酸序列,挑战是基于已知的氨基酸序列预测蛋白质结构。
但多年来,研究人员的预测准确性最高只有 40%,直到 2018 年,国际象棋天才、深度学习 " 元老 "、AlphaGo 亲爹 Demis Hassabis 下场参赛了。
Demis Hassabis
AI 终结 50 年挑战
闯入 " 蛋白质奥运会 " 前,Hassabis 已经在棋盘、游戏和创投领域大杀四方。
他 4 岁开始学国际象棋,8 岁用国际象棋比赛奖金买来的电脑编程开发了棋盘游戏奥赛罗(Othello),13 岁时就成为这个年龄组的世界第二,17 岁时负责的游戏项目《主题公园》爆火。
他一直在思索 " 大脑是如何学会掌握复杂任务的 "" 电脑也能做到同样程度吗 ",在 2015 年的采访中他表示:" 事实上我的整个职业生涯,包括我开发游戏的时候,都是为了最终成立 AI 公司。少年的时候我就决定,AI 会是最有趣和最重要的事业。"
2010 年,他共同创立了 DeepMind,2014 年被谷歌收购,2016 至 2017 年,AlphaGo 击败人类围棋世界冠军更是使 Hassabis 的深度学习事业声名大噪。
柯洁晒出 AlphaGo 人机大战后与 Hassabis 的合影,表示 " 成为历史的见证者了!"
其实 Hassabis19 岁才开始学围棋,目前水平也只是 " 刚入门 " 的业余 1 段,围棋只是他开发更好人工智能模型的手段。2018 年,他的团队携第一代 AlphaFold 以近 60% 的准确率获得第 13 届 CASP 冠军。
这是意想不到的进步,但要投入实际应用,预测必须达到 90% 准确率。Hassabis 遭遇技术瓶颈之时,一位 2017 年入职 Deepmind 的新员工 John Jumper 提出了对 AlphaFold 改进的突破性想法。
John Jumper 原本基于对宇宙的迷恋钻研物理和数学, 2008 年,他在 D.E. Shaw Research 找到一份工作,负责开发用于蛋白质模拟的超级计算机。带着对蛋白质的新兴趣,他于 2011 年开始攻读理论物理博士学位。因为学校供应的计算机配置不足,他开始开发更简单巧妙的方法做蛋白质模拟。
2017 年博士毕业时,他听说谷歌 DeepMind 在高度保密的情况做蛋白质结构预测,便提交了工作申请,那时他应该很难想象,这一决定会带他博士毕业七年速通诺奖,成为诺奖历史上首位 "80 后 " 得主。
John Jumper 是诺奖历史上首位 "80 后 " 得主
团队停滞不前后,Jumper 和 Hassabis 共同领导了 AlphaFold2 的开发。得益于算法革新,AlphaFold2 不再沿用 AlphaFold 中的卷积神经网络,而是采取 Transformer 架构,在所有已知蛋白质结构和氨基酸序列的庞大数据库中训练,将未知结构的氨基酸序列输入 AlphaFold2,在迭代中细化序列分析和氨基酸彼此之间的距离图。
在 2020 年的 CASP,将实验方法得到的蛋白质结构叠加在 AlphaFold2 的结构上,组成蛋白质主链骨架的叠加原子之间的距离中位数(95% 的覆盖率)为 0.96 埃(0.096 纳米)。这意味着,预测的蛋白质结构能达到原子水平的准确度——生物化学领域 50 年来在蛋白质折叠问题上挑战结束了。
2021 年 7 月,DeepMind 向全世界开源了 AlphaFold2。AlphaFold 能够 " 在几秒或几分钟内相当准确地预测蛋白质的结构 ",Hassabis 在接受美联社采访时表示,这为研究人员省去了 " 可能需要数年才能完成的繁琐实验工作 "。
将一个未知结构的氨基酸序列输入 AlphaFold2,系统会在数据库中搜索相似的氨基酸序列和蛋白质结构
AlphaFold2 能够预测几乎所有已知的 2 亿种蛋白质的结构,目前,来自 190 个国家的 200 多万人都用上了 AlphaFold2,相当一批资金有限的科研者也有了机会借助工具分析数据并从中发现模式和结构,参与到高水平的科研中。
今年 5 月,AlphaFold3 再登 Nature,基于 Diffusion 架构,将技术延伸到蛋白质折叠之外,能以原子级精度准确预测蛋白质、DNA、RNA、配体等生命分子的结构及相互作用。
Hassabis 在获奖后透露," 我们即将完成 AlphaFold3 的代码清理工作,并计划将其向学术界开放,供自由使用,之后我们将继续前行。"
诺奖也 FOMO
2020 年 12 月 4 日,AlphaFold2 在 CASP 取得爆炸性突破,CASP 创始人之一 John Moult 在比赛结束时发问 "what now?"
与两位人工智能研究者分享诺奖的另一位 CASP 参与者 David Baker,正在蛋白质结构预测 " 反向操作 " 的道路上行走。
David Baker
当 Baker 开始在哈佛大学学习时,他选择了哲学和社会科学。然而一本《细胞分子生物学》第一版改变了他的人生方向。他对蛋白质结构产生了浓厚的兴趣,开发了预测蛋白质结构的计算机软件 Rosetta,并借助 Rosetta 在 1998 年首次参加 CASP 比赛时领先于其他参与者。
Baker 的团队意识到,使用 Rosetta,他们应该能够输入蛋白质空间结构的 " 设计图纸 ",让计算机反推出对应的氨基酸序列,按照序列进行合成就可以得到人们想要的、具有特定功能的新蛋白质。
过去科学家们无法凭空设计一种新蛋白质,只能改造自然界已经存在的蛋白质,Baker 想要从头开始创造。他表示:" 如果你想制造飞机,你不会从修改鸟开始,而是基于对空气动力学基本原理的理解制造飞行机器。"
2003 年时,Baker 首次利用软件创造出了一个与天然蛋白质截然不同的新蛋白质 Top7。Rosetta 搜索了所有已知蛋白质结构的数据库,寻找与所需结构相似的短片段,优化并提出一个氨基酸序列,经 X 射线晶体学方法比对,其开发的蛋白质 Top7 几乎与他们设计的结构完全一致。
与天然蛋白质截然不同的新蛋白质—— top7
此后,他们不断从头创造出新的富有想象力的蛋白质,催生新的纳米材料、药物、疫苗、微型传感器和更环保的化学工业。获奖当天,诺奖委员会联系到了 Baker,他认为自己是站在巨人肩膀上取得了这些成果,AI 已经为科学进步做出了巨大的贡献。
"Demis 和 John 在蛋白质结构预测上的突破,真正让我们看到了人工智能的巨大潜力,"Baker 说道," 这也促使我们开始将人工智能方法应用于蛋白质设计。"
预测和设计的两组科学家相互借鉴了对方的成果。诺奖新闻发布会上,Hassabis 和 Jumper 表示,他们的研究只是人工智能辅助技术的开端,这种技术可以将医疗手段的开发周期从数年缩短至几个月,同时帮助研究人员理解生物学中的基本机制。
AlphaFold2 能在几分钟内预测出一个典型蛋白质的结构,大大提高了研究人员的效率和精准度
" 我认为人工智能有潜力成为加速科学研究和知识发展的终极工具,希望 AlphaFold 是第一个样例。"Hassabis 在与诺奖官方通话中表示," 最好的科学家和这类工具将能够做出令人难以置信的成果。"
通话中,Jumper 视自己为计算生物学家,并称:" 我们需要计算来解决生物学的问题。我只是很高兴它开始奏效了,我简直不敢相信我们这么快就得到了认可。"
好在,诺奖也怕错过,果断将 AI 在蛋白质结构与设计上的突破进展赶早收入囊中。
AI for Science 的时代,交叉学科爆发,基础科学接纳并认可了机器学习这一潜能无限同时伴随着发散和不确定性的领域,新的科研范式正在形成并将带来深远的影响。
颁奖前,Jumper 觉得自己只有 10% 的获奖几率,他原本的计划是睡个懒觉,等醒来那刻便知道自己是否获奖,但这个计划并未成功," 因为睡那么久实在很难熬 "。他在线看了化学奖直播,并自拍录下了自己的欢呼:
" 真高兴你们都跟上了!"
作者 | 南风窗记者 晓谦
编辑 | 向由
值班主编 | 赵靖含
排版 | 阿车
还没有评论,来说两句吧...