语言图像模型大一统！Meta将Transformer和Diffusion融合，多模态AI王者登场（语言模型有什么用）

原标题：语言图像模型

大一统！Meta将Transformer和Diffusion融合，多模态AI王者登场

关键字：图像,模型,研究者,文本,序列

文章来源：人工智能学家

内容字数：0字

来源：新智元编辑：Aeneas 好困

【导读】就在刚刚，Meta最新发布的Transfusion，能够训练生成文本和图像的统一模型了！完美融合Transformer和扩散领域之后，语言模型和图像大一统，又近了一步。也就是说，真正的多模态AI模型，可能很快就要来了！Transformer和Diffusion，终于有了一次出色的融合。

自此，语言模型和图像生成大一统的时代，也就不远了！

这背后，正是Meta最近发布的Transfusion——一种训练能够生成文本和图像模型的统一方法。

论文地址：https://arxiv.org/abs/2408.11039

英伟达高级科学家Jim Fan盛赞：之前曾有很多尝试，去统一Transformer和Diffusion，但都失去了简洁和优雅。

现在，是时候来一次Transfusion，来重新激活这种融合了！

在X上，论文共一Chunting Zhou，为我们介绍了Transfusion其中的「玄机」。

为何它能让我们在一个模型中，同时利用两种方法的优势？

这是因为，Transfusion将语言建模（下一个token预测）与扩散相结合，这样，就可以在

文章来源：人工智能学家

作者微信：

作者简介：