下棋下哭柯洁的DeepMind 又要让生物界大地震

科技 瞳瞳

最近,我又被 AI 新闻给刷屏了,当年开发出 AlphaGo ,下棋下哭柯洁的谷歌DeepMind 公司,在 Nature 上公布了最他们新一代 AlphaFold 3 模型。

AlphaFold ,这个听起来有点像折叠屏手机型号的名字,是他家专门预测蛋白质结构的新 AI 。

生物体内几乎所有的分子结构,它都可以预测。

这意味着生物医学研究从此开了真 · 上帝视角,任何生物分子作用机理都将从黑盒中打开,变成透视模式。

不少媒体和网友开始欢呼, 21 世纪,这下真要成生物的世纪了。

下棋下哭柯洁的DeepMind 又要让生物界大地震

要看懂这次新发布的 AlphaFold 3 有多牛,咱们就得先知道, DeepMind 和它的 AlphaFold ,曾给了分子生物圈多大的震撼。

我们在九年义务教育里都学过,生物体内最多的物质就是蛋白质,而要搞清楚生物分子的底层原理,就必须知道每个蛋白质具体长啥样。

这么说吧,在 AlphaFold 之前,大伙们预测蛋白质结构主要两种办法,

一是用 X 光照蛋白质晶体,也就是先拍片子再分析片子,再来搞懂它长啥样。

二是核磁共振 (  NMR  ) 光谱,拍出大体形状轮廓,再推测它的结构。

这些传统办法不仅慢,适用范围小,需要不断试错,还费钱,每拍一次片子就花好几万美金,抵一辆小米 su7 。

这也是为啥蛋白质研究方向生物学家,费钱且需要大量经验。

只有那些经验的老师傅,蛋白质仙人,才能更快猜到蛋白质的准确形状,少拍点片子。

下棋下哭柯洁的DeepMind 又要让生物界大地震

所以人们就琢磨,这种需要经验总结的工作能不能靠 AI 解决呢?

DeepMind 就来干这事了,为了克服传统拍片子的问题,第一代 AlphaFold 选择技术路线的时候就摊牌了:

不拍片子!

蛋白质既然由氨基酸构成,初代 AlphaFold 用的方法就是,利用来自各处公开的已知蛋白质结构,把这些蛋白质中每一对氨基酸的距离,链接角度,汇总起来做成一张图, AI 用神经网络消化完他们,再让 AI 做出自己的预测。

下棋下哭柯洁的DeepMind 又要让生物界大地震

而 2018 年第一代 AlphaFold 一经发布,就技惊四座,力压一众实验室老师傅,获得第 13 届蛋白质结构预测大赛 (  CASP  ) 冠军。

AI ,很神奇吧。

不过,初代 AlphaFold 有个问题,它更依赖局部数据的特征来训练,它不太能提取到较远元素之间的关系。

就好像一个只会写短文,但学不会写长篇小说的作家。

问题是,很多蛋白质分子有长距离的依赖性,这让初代 AlphaFold 的实力就有点捉襟见肘了。

好在 2020 年发布的 AlphaFold2.0 ,用上了后来在 ChatGPT 上大火的 Transformer 模型。

下棋下哭柯洁的DeepMind 又要让生物界大地震

Transformer 模型的注意力机制,则完美解决了长距离氨基酸的问题,进步有多大呢?

2018 年蛋白质结构预测大赛里 1.0 版本准确度得分不到 60 分,但是 2020 年大赛里 2.0 版本拿到了惊人的 92.4 分,它能生成的范围已经涵盖了人类已知蛋白质的 98% ,更重要的是它完全开源。

下棋下哭柯洁的DeepMind 又要让生物界大地震

可以说, 2.0 版本已经基本解决了单链蛋白质的预测问题。

到 2021 年,基于 2.0 改版的 AlphaFold-Multimer 发布,也支持上了多链,准确度上也取得了突破,蛋白质之间作用的预测准确率超过 70% 。

所以现在很多公司也用上了它们,甚至助力了国外一些新冠疫苗研发。

下棋下哭柯洁的DeepMind 又要让生物界大地震

但在 DeepMind 看来,蛋白质结构预测上的胜利,还远远没发挥完 AI 的潜力,因为生物体内的复杂分子结构不止有蛋白质,还有核酸,小分子配体等等,

这就好比你花了十年时间学刻钥匙开锁技术,结果一出师,发现大家用的都是指纹锁密码锁,用传统钥匙的人太少了!

所以这次 AlphaFold 3 ,他们更新了一个更牛逼的全方位模型,不仅能预测蛋白质 DNA RNA 等各种小分子,还能揭示他们之间的互相作用。

下棋下哭柯洁的DeepMind 又要让生物界大地震

那这是怎么干的呢?答案是,他们用了 Diffusion 。

对,就是大名鼎鼎的扩散模型,在 AI 绘画大火的时候,想必大家就听说过。

它的原理就是把原图像不断打码,再让 AI 学会预测这些马赛克的生成过程,然后反过来实现从马赛克到图像的生成。

不过,就像 AI 画画生成不好手指, Sora 椅子视频会穿模一样, Diffusion 加持下的 AlphaFold 3 也会预测错误,特别是在一些长得相似难以区分的结构上,比如各位高中有机化学里学过的手性分子。

下棋下哭柯洁的DeepMind 又要让生物界大地震

所以在这些容易出错的地方, DeepMind 用了一个叫做交叉蒸馏的操作,说白了就是让有 Transform 模型的 2 代版本先预测,再把预测数据添加到 AlphaFold 3 的训练中,也就是相当于让 2 代扮演教师,领着 3 代去做,这样就能减少预测失误。

生成的效果有多好?直接看官方图吧。

AlphaFold 3 对 7BBV - 酶 ( 存在于一种土壤真菌体内 ) 的预测,其中酶蛋白( 蓝色 )、离子( 黄色球体 )和单糖( 黄色 )与真实结构( 灰色 )几乎重合

下棋下哭柯洁的DeepMind 又要让生物界大地震

AlphaFold 3 对感冒病毒刺突蛋白( 蓝色 )与抗体( 绿松石色 )和单糖( 黄色 )相互作用时的结构预测,与真实结构准确匹配( 灰色的)

下棋下哭柯洁的DeepMind 又要让生物界大地震

AlphaFold 3 对蛋白复合物的预测,其中蛋白质( 蓝色 )与 DNA ( 粉色 )结合,预测模型与实验测定的真实分子结构( 灰色 )近乎完美匹配

下棋下哭柯洁的DeepMind 又要让生物界大地震

除了生成质量相当哇塞,精度也是遥遥领先的原子级。在蛋白质与核酸配体的模拟上全面优于其他产品,抗原抗体的模拟也同样优秀。

而操作 AlphaFold3 就更容易了。

用 ChatGPT ,咱还得想办法提个好问题、写好提示词,而在 AlphaFold 3 ,你只需要输入一些分子列表,它就能预测出它们是如何组合在一起的。

下棋下哭柯洁的DeepMind 又要让生物界大地震

试想一下,原先需要花大量时间精力和资金才能观察到的现象,现在只需要在网站输入参数再单击,几分钟后就能产生极高清晰度和准确度的生物大分子模型。

甚至细胞系统内部的生化过程,现象, DNA 如何发挥作用,药物和激素的反应如何进行,也全都能在极短时间内被整明白。

这些遥遥领先的数据,和大家的热情好像都在说:这次发布已经不是跨越式进步了,而是革命性的突破,整个传统生物医疗的科研方式,似乎都要被改变了。

不过我觉得,乐观是好的,但是科学这玩意儿除了乐观,要的还得是中肯和严谨。

在各路媒体和网友都在 “ 炸裂 ” “ 颠覆 ” “ 改变世界 ” 的时候,圈内对的不少大佬,也发表了些对 AlphaFold 3 的评价。

比如颜宁教授团队就发现, 3.0 版本在一个糖蛋白预测中就翻车了,表现甚至不如前代版本。

也有不少科学家吐槽 3.0 相比 2.0 它还不开源了,使用次数也有限制。

下棋下哭柯洁的DeepMind 又要让生物界大地震

甚至,还有人质疑 DeepMind 的老板 Hassabis ,他自己就创立过一家 “ 专注人工智能的药物公司 ” ,号称要 “ 利用人工智能重新定义药物发现 ” ,但从 2021 年到,今天他们还没有推出任何药物。

当然这就有点在尬黑了,毕竟药物研发过程中,蛋白质结构问题只是其中一小部分,这并不能对药物研发进度产生决定性影响。

下棋下哭柯洁的DeepMind 又要让生物界大地震

总之,我觉得 AlphaFold 的三代产品确实喜人,但在生命科学的漫漫实践长路上,它依旧有着不少难题需要去突破。

不过说到底,进步总还是好事,希望 DeepMind 能再多搞点,搞快点吧。

发表评论 取消回复
图片 链接