下棋下哭柯洁的DeepMind,这次要让整个生物界震撼! (柯杰下棋图片头像)

最近,世界超级计算机再次成为人工智能新闻的热门话题。谷歌DeepMind公司,曾经开发出AlphaGo并在与柯洁的对弈中取得了令人瞩目的胜利,如今在《自然》杂志上发布了他们的最新一代AlphaFold 3模型。

AlphaFold,这个听起来有点像折叠屏手机型号的名字,是DeepMind公司开发的一种新型人工智能技术,用于预测蛋白质的三维结构。

生物体内几乎所有的分子结构,科学家们可以预测。这意味着生物医学研究从此可以以一种全新的视角进行,任何生物分子的作用机理都可以被揭示出来,就像透视一样。

不少媒体和网友开始欢呼,21世纪,这下真要成为生物的世纪了!

下棋下哭柯洁的DeepMind,这次要让生物界地震?_图1

要了解这次新发布的 AlphaFold 3 有多么厉害,我们需要先了解一下 DeepMind 和它的 AlphaFold 给分子生物领域带来了多大的影响。

我们在九年义务教育里都学过,生物体内最多的物质就是蛋白质,而要搞清楚生物分子的底层原理,就必须知道每个蛋白质具体的结构和组成。

在AlphaFold发布之前,人们通常使用两种方法来预测蛋白质的结构:

一种方法是使用X光照射蛋白质晶体,这意味着首先拍摄晶体的X射线图像,然后分析这些图像,以了解蛋白质的外观和形状。另一种方法是使用核磁共振(NMR)光谱,通过拍摄蛋白质的NMR谱图,可以推测出其大致形状和结构。

这些传统办法不仅慢,适用范围小,需要不断试错,还费钱,每拍一次片子就花好几万美金,相当于一辆小米 su7。

这也是为什么蛋白质研究是生物学家的一个重要方向,因为它需要投入大量的资金和经验。只有那些经验丰富的老师傅,也就是蛋白质的专家,才能更快地推测出蛋白质的准确形状,从而减少拍摄片子的数量。

下棋下哭柯洁的DeepMind,这次要让生物界地震?_图2

所以人们就思考,这种需要经验总结的工作能否依靠人工智能来解决呢?DeepMind就来承担这个任务,为了克服传统拍片子的问题,第一代AlphaFold在选择技术路线时就公开了:

不拍电影!

蛋白质是由氨基酸组成的,AlphaFold首先利用来自各个公开已知蛋白质结构的信息,将这些蛋白质中每对氨基酸的距离和连接角度进行整合,形成一张图。然后,通过神经网络对这些信息进行处理,让AI进行预测。

下棋下哭柯洁的DeepMind,这次要让生物界地震?_图3

而在2018年,第一代AlphaFold发布后,其表现出色,超过了其他实验室的老师傅们,成功获得了第13届蛋白质结构预测大赛(CASP)的冠军。

人工智能,非常令人惊奇。

不过,初代 AlphaFold 存在一个问题,它更加依赖局部数据的特征来进行训练,因此无法很好地提取较远元素之间的关系。可以将其比喻为一个只擅长写短文而无法写长篇小说的作家。

问题是,很多蛋白质分子之间存在着长距离的相互依赖关系,这使得初代 AlphaFold 的能力受到了一定的限制。

幸运的是,2020年发布了AlphaFold2.0,这是一种基于ChatGPT上大火的Transformer模型的应用。

下棋下哭柯洁的DeepMind,这次要让生物界地震?_图4

Transformer 模型的注意力机制,则完美解决了长距离氨基酸之间的依赖关系的问题,取得了巨大的进步。

2018 年蛋白质结构预测大赛里 1.0 版本准确度得分不到 60 分,但是 2020 年大赛里 2.0 版本拿到了惊人的 92.4 分,它能生成的范围已经涵盖了人类已知蛋白质的 98% ,更重要的是它完全开源

下棋下哭柯洁的DeepMind,这次要让生物界地震?_图5

可以说,2.0版本已经基本解决了单链蛋白质的预测问题。到2021年,基于2.0改版的AlphaFold-Multimer发布,也支持了多链蛋白质的预测。在准确度方面也取得了突破,蛋白质之间作用的预测准确率超过了70%。

所以现在很多公司也开始使用这些技术,甚至为国外一些新冠疫苗的研发提供了支持。

下棋下哭柯洁的DeepMind,这次要让生物界地震?_图6

但在 DeepMind 看来,蛋白质结构预测上的胜利,还远远没发挥完 AI 的潜力,因为生物体内的复杂分子结构不止有蛋白质,还有核酸(如DNA和RNA),小分子配体(如药物和化合物)等等。

这就好比你花了十年时间学刻钥匙开锁技术,结果一出师,发现大家用的都是指纹锁密码锁,用传统钥匙的人太少了!

所以这次 AlphaFold 3 ,他们更新了一个更强大的全方位模型,不仅能预测蛋白质、DNA、RNA等各种小分子的结构,还能揭示它们之间的相互作用。

下棋下哭柯洁的DeepMind,这次要让生物界地震?_图7

那这是怎么实现的呢?答案是,他们采用了Diffusion技术。

对,就是著名的扩散模型,在AI绘画大热的时候,想必大家都听说过。它的原理是通过对原始图像进行不断的编码,然后让AI学习预测这些马赛克的生成过程,最后实现从马赛克到图像的生成。

不过,就像 AI 画画生成不好手指, Sora椅子视频会穿模一样, Diffusion 加持下的 AlphaFold 3 也会预测错误,特别是在一些长得相似难以区分的结构上,比如各位高中有机化学里学过的手性分子。

不过,就像人工智能在画画时可能无法准确绘制手指一样,AlphaFold 3 在Diffusion的帮助下也可能会出现预测错误的情况,尤其是在一些外观相似且难以区分的结构上,比如高中有机化学课程中学过的手性分子。

下棋下哭柯洁的DeepMind,这次要让生物界地震?_图8

所以在这些容易出错的地方, DeepMind 用了一个叫做交叉蒸馏的操作,说白了就是让有 Transform 模型的第二代版本先进行预测,再将预测数据添加到 AlphaFold 3 的训练中,也就是相当于让第二代扮演教师,引导第三代进行预测,这样就能减少预测失误。

生成的效果有多好?直接看官方图

AlphaFold 3 对编号为7BBV的酶进行了预测,该酶存在于一种土壤真菌体内。预测结果显示,酶蛋白(以蓝色表示)、离子(以黄色球体表示)和单糖(以黄色表示)与真实结构(以灰色表示)几乎完全重合。

下棋下哭柯洁的DeepMind,这次要让生物界地震?_图9

AlphaFold 3 对感冒病毒刺突蛋白( 蓝色 )与抗体( 绿松石色 )和单糖( 黄色 )相互作用时的结构进行了准确的预测,与真实结构完全匹配( 灰色的)

下棋下哭柯洁的DeepMind,这次要让生物界地震?_图10

AlphaFold 3 对蛋白复合物的预测,其中蛋白质( 蓝色 )与 DNA ( 粉色 )结合,预测模型与实验测定的真实分子结构( 灰色 )非常相似

下棋下哭柯洁的DeepMind,这次要让生物界地震?_图11

除了生成质量相当惊人,精度也是遥遥领先的原子级。在蛋白质与核酸配体的模拟上全面优于其他产品,抗原抗体的模拟也同样出色。

而操作 AlphaFold3 就更加简单了。使用ChatGPT ,我们需要思考如何提出一个好问题并写出适当的提示词,而在 AlphaFold 3 中,您只需输入一些分子列表,它就能预测它们的组合方式。

下棋下哭柯洁的DeepMind,这次要让生物界地震?_图12

想象一下,以前需要耗费大量时间、精力和资金才能观察到的现象,现在只需要在网站上输入参数,然后点击一下,几分钟后就能生成极高清晰度和准确度的生物大分子模型。

甚至细胞系统内部的生化过程,现象,DNA如何发挥作用,药物和激素的反应如何进行,也全都能在极短时间内被完全理解。

这些遥遥领先的数据,和大家的热情好像都在说:这次发布已经不是跨越式进步了,而是革命性的突破,整个传统生物医疗的科研方式,似乎都要被彻底改变了。

不过世超觉得,乐观是好的,但是科学这个领域除了乐观的态度,还需要中肯和严谨的方法和思维。

在各路媒体和网友都在热议、讨论、赞叹的时候,圈内不少权威人士也发表了对AlphaFold 3的评价。

比如颜宁教授团队就发现,3.0 版本在一个糖蛋白预测中遇到了困难,表现甚至不如之前的版本。

也有不少科学家批评3.0版本相比2.0版本,它不再是开源的,并且使用次数也受到限制。

下棋下哭柯洁的DeepMind,这次要让生物界地震?_图13

甚至,还有人质疑 DeepMind 的老板 Hassabis ,他自己就创立过一家 “ 专注人工智能的药物公司 ” ,号称要 “ 利用人工智能重新定义药物发现 ” ,但从 2021 年到今天,他们仍未推出任何药物。

当然这就有点在尬黑了,毕竟药物研发过程中,蛋白质结构问题只是其中一小部分,这并不能对药物研发进度产生决定性影响。

下棋下哭柯洁的DeepMind,这次要让生物界地震?_图14

总之,世超觉得 AlphaFold 的第三代产品确实令人满意,但在生命科学的实践过程中,仍然存在一些需要克服的难题。不过说到底,进步总是好事,希望 DeepMind 能够继续努力,加快进展。

0
分享到:
没有账号? 忘记密码?