AlphaFold 3不开源,统一生物语言大模型阿里云先开了!(alfred使用教程)

AIGC动态欢迎阅读

原标题:AlphaFold 3不开源,统一生物语言大模型

阿里云先开了!

关键字:序列,核酸,蛋白质,数据

,模型

文章来源:量子位

内容字数:0字

内容摘要:

西风 发自 凹非寺量子位 | 公众号 QbitAI把169861个生物物种数据装进大模型,大模型竟get到了生物中心法则的奥秘——

不仅能识别DNA、RNA与相应蛋白质之间的内在联系,在基因分类、蛋白质相互作用预测、热稳定性预测等7种不同类型任务中也能比肩SOTA模型。

模型名为LucaOne,由阿里云飞天实验室生物智能计算团队打造。

相比AlphaFold 3因未开源遭到650多名学者联名批评,LucaOne训练推理代码及相关数据目前均已开源。

LucaOne是目前首个全生物系统的核酸语言+蛋白语言的融合基座模型。换句话说,LucaOne由核酸(DNA、RNA)和蛋白质序列联合训练而来。

通过一系列实验,研究人员发现它能广泛适用各种下游任务。

在含13个物种、关系对总数量为24000的核酸序列和其对应蛋白的正负样本数据集中,LucaOne提供表征的模型达到0.85的预测准确率。

远高于目前业内最好的预训练模型组合ESM-3B+DNAbert2(0.73)及其他建模方式,也显著高于LucaOne的单核酸训练版本+单蛋白训练版本。

其他任务如针对流感H3N2病毒疫苗有效性(免疫逃逸风险)

原文链接:AlphaFold 3不开源,统一生物语言大模型阿里云先开了!

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?