Meta发布多模态模型Chameleon：34B、类GPT-4o、性能接近GPT-4V（多模态理论是什么意思）

原标题：Meta发布多模态模型Chameleon：34B、类GPT-4

o、性能接近GPT-4V

关键字：模型,图像,报告,文本,分词

文章来源：Founder Park

内容字数：8311字

GPT-4o 的横空出世，再次创立了一个多模态模型发展的新范式。OpenAI

将其称为「首个『原生』多模态」模型，意味着 GPT-4o 与以往所有的模型，都不尽相同。传统的多模态基础模型，通常为每种模态采用特定的「编码器」或「解码器」，将不同的模态分离开。

然而，这种方法限制了模型，有效融合跨模态信息的能力。官博介绍，GPT-4o 是「首个端到端」训练的，跨越文本、视觉和音频的模型，所有的输入和输出，都由单个神经网络处理。

而现在，业界首个敢于挑战 GPT-4o 的模型现身了。

最近，来自 Meta 团队的研究人员发布了「混合模态基座模型」——Chameleon（变色龙）。

论文地址：https://arxiv.org/pdf/2405.09818

与 GPT-4o 一样，Chameleon 采用了统一的 Transformer 架构，使用文本、图像和代码混合模态完成训练。以类似文本生成的方式，对图像进行离散「分词化」（tokenization），最终生成和推理交错的文本和图像序列。

这种「早期融合」的方法，所有的 pipeline 从一开始就被映射到一个共同的表示空间，因此模型可以无

文章来源：Founder Park

作者微信：Founder-Park

作者简介：来自极客公园，专注与科技创业者聊「真问题」。