超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像,中科大哈工大度小满出品(扩散理论及其影响因素)

AIGC动态欢迎阅读

原标题:超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像

,中科大哈工大度小满出品

关键字:图像,模型,尺度,位置,文本

文章来源:量子位

内容字数:0字

内容摘要:

STAR团队 投稿自 凹非寺量子位 | 公众号 QbitAI超越扩散模型!自回归范式在图像生成领域再次被验证——

中科大、哈工大、度小满等机构提出通用文生图模型STAR。

仅需2.9秒就可生成高质量图像,超越当前一众包括SDXL在内扩散模型的性能。

此外在生成图像真实度、图文一致性和人类偏好上均表现优秀。

来看看具体是如何做到的?

自回归通用文生图模型STAR扩散模由于其高质量和多元的生成,一度在文生图领域占有主导地位。

它通过逐步的去噪过程,为图像生成提供了更强的稳定性和可控性,然而也导致生成过程极其耗时。

而自回归模型的潜力,在受到大语言模型启发下,开始在这一领域逐渐被探索。

比如VAR指出是因为自回归模型逐个预测token的行为不符合图像模态的特点,提出“next-scale prediction”范式,将视觉自回归建模为逐个预测更大尺度scale的token map。这一方式避免了原始基于next-token的自回归方案难以建模图像模态的问题,重新为视觉生成定义了新的自回归范式,从而使得生成的图像具有更高的真实度,不过仍然有很多局限,性能仍落后于扩散模型。

作者提出基于尺度的文

原文链接:超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像,中科大哈工大度小满出品

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?