3倍生成速度还降内存成本,超越Medusa2的高效解码框架终于来了(解码方案)

AIGC动态欢迎阅读

原标题:3倍生成速度还降内存成本,超越Medusa2的高效解码框架终于来了

关键字:模型,轨迹,报告,序列,目标

文章来源:机器之心

内容字数:9364字

内容摘要:

机器之心报道

编辑:亚鹂高效解码n -token序列,CLLMs+Jacobi解码框架。‍‍‍‍‍‍

传统上,大型语言模型(LLMs)被认为是顺序解码器,逐个解码每个token。

来自上海交通大学、加利福尼亚大学的研究团队展示了预训练的LLMs可以轻松地被教导成为高效的并行解码器,并介绍了一种新的并行解码器族,称为一致性大语言模型(CLLMs),能够通过在每个推断步骤中高效地解码一个n -token序列来降低推断延迟。

在此篇论文中,研究表明:「模仿人类在头脑中形成完整句子后逐字表达的认知过程,可以通过简单地微调预训练的LLMs来有效地学习。」

具体而言,CLLMs通过将任何随机初始化的n -token序列映射到尽可能少的步骤中,产生与自回归(AR)解码相同结果,来进行并行解码的训练。

实验结果表明,使用该研究团队所提出的方法获得的CLLMs非常有效,在生成速度上显示出该方法获得了2.4倍至3.4倍的改进,与其他快速推断技术如Medusa2和Eagle相媲美甚至更好,且在推断时不需要额外的内存成本来容纳辅助模型组件。论文名称:《CLLMs:Consistency Large Langu

原文链接:3倍生成速度还降内存成本,超越Medusa2的高效解码框架终于来了

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

0
分享到:
没有账号? 忘记密码?