入选ACL2024主会 | InstructProtein:利用知识指令对齐蛋白质语言与人类语言(acl会议难度大不大)

AIGC动态欢迎阅读

原标题:入选ACL2024主会 | InstructProtein:利用知识指令对齐蛋白质语言

与人类语言

关键字:蛋白质,解读,模型,语言,序列

文章来源:HyperAI超神经

内容字数:0字

内容摘要:

作者:梅菜

编辑:十九,李宝珠

浙江大学研究团队提出InstructProtein,利用知识指令对齐蛋白质语言与人类语言,展示了将生物序列整合到大型语言模型的能力。作为细胞生存的基础,蛋白质存在于包括人体在内的所有生物体中,是构成组织器官的支架和主要物质,在生命必不可少的化学反应中发挥着核心作用。

面对蛋白质结构的复杂多变,传统实验方法在解析蛋白质结构时既耗时又费力,蛋白质大语言模型 (PLMs) 应运而生——这些专业模型以氨基酸序列作为输入,能预测蛋白质功能,甚至设计全新的蛋白质。然而,PLMs 虽然在理解氨基酸序列方面表现出色,但无法理解人类语言。

同样地,当要求 ChatGPT

和 Claude-2 这类擅长处理自然语言的大语言模型 (LLMs),去描述蛋白质序列的功能或生成具有特定性质的蛋白质时,它们也力不从心。究其原因,目前的蛋白质-文本对数据集存在两大缺陷:一是缺少明确的指令信号;二是数据注释不平衡。总之,当前 LLMs 的研究中存在一个尚未解决的空白,即无法在人类语言和蛋白质语言之间快速转换。

为了解决这类问题,浙江大学陈华钧、张强团队提出InstructProtein

原文链接:入选ACL2024主会 | InstructProtein:利用知识指令对齐蛋白质语言与人类语言

联系作者

文章来源:HyperAI超神经

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?