无损加速最高5x,EAGLE-2让RTX 3060的生成速度超过A100(3060全速)

AIGC动态欢迎阅读

原标题:无损加速最高5x,EAGLE-2让RTX 3060的生成速度超过A100

关键字:草稿,模型,节点,语言,阶段

文章来源:机器之心

内容字数:0字

内容摘要:

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com李堉晖:北京大学智能学院硕士,受张弘扬老师和张超老师指导,研究方向为大模型加速和对齐,正在寻找25届工作机会

魏芳芸:微软亚研院研究员,研究方向为具身智能、图像生成和AI agents

张超:北京大学智能学院研究员,研究方向为计算机视觉和机器学习

张弘扬:滑铁卢大学计算机学院、向量研究院助理教授,研究方向为LLM加速和AI安全自回归解码已经成为了大语言模型(LLMs)的事实标准,大语言模型每次前向计算需要访问它全部的参数,但只能得到一个token,导致其生成昂贵且缓慢。

今日,一篇题为《EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees》的论文提出了动态草稿树投机采样,依据

原文链接:无损加速最高5x,EAGLE-2让RTX 3060的生成速度超过A100

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

0
分享到:
没有账号? 忘记密码?