Meta发布多模态模型Chameleon:34B、类GPT-4o、性能接近GPT-4V(多模态理论是什么意思)

AIGC动态欢迎阅读

原标题:Meta发布多模态模型Chameleon:34B、类GPT-4

o、性能接近GPT-4V

关键字:模型,图像,报告,文本,分词

文章来源:Founder Park

内容字数:8311字

内容摘要:

GPT-4o 的横空出世,再次创立了一个多模态模型发展的新范式。OpenAI

将其称为「首个『原生』多模态」模型,意味着 GPT-4o 与以往所有的模型,都不尽相同。传统的多模态基础模型,通常为每种模态采用特定的「编码器」或「解码器」,将不同的模态分离开。

然而,这种方法限制了模型,有效融合跨模态信息的能力。官博介绍,GPT-4o 是「首个端到端」训练的,跨越文本、视觉和音频的模型,所有的输入和输出,都由单个神经网络处理。

而现在,业界首个敢于挑战 GPT-4o 的模型现身了。

最近,来自 Meta 团队的研究人员发布了「混合模态基座模型」——Chameleon(变色龙)。

论文地址:https://arxiv.org/pdf/2405.09818

与 GPT-4o 一样,Chameleon 采用了统一的 Transformer 架构,使用文本、图像和代码混合模态完成训练。以类似文本生成的方式,对图像进行离散「分词化」(tokenization),最终生成和推理交错的文本和图像序列。

这种「早期融合」的方法,所有的 pipeline 从一开始就被映射到一个共同的表示空间,因此模型可以无

原文链接:Meta发布多模态模型Chameleon:34B、类GPT-4o、性能接近GPT-4V

联系作者

文章来源:Founder Park

作者微信:Founder-Park

作者简介:来自极客公园,专注与科技创业者聊「真问题」。

0
分享到:
没有账号? 忘记密码?