抛弃视觉编码器，这个「原生版」多模态大模型也能媲美主流方法（视觉信息编码）

AIGC动态欢迎阅读

原标题：抛弃视觉编码器，这个「原生版」多模态大模型

也能媲美主流方法

关键字：模型,视觉,编码器,语言,数据

文章来源：机器之心

内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com一作刁海文，是大连理工大学博士生，导师是卢湖川教授。目前在北京智源人工智能研究院实习，指导老师是王鑫龙博士。他的研究兴趣是视觉与语言，大模型高效迁移，多模态大模型等。共同一作崔玉峰，毕业于北京航空航天大学，是北京智源人工智能研究院视觉中心算法研究员。他的研究兴趣是多模态模型、生成模型和计算机视觉，主要工作有 Emu 系列。

近期，关于多模态大模型的研究如火如荼，工业界对此的投入也越来越多。国外相继推出了炙手可热的模型，例如 GPT-4o （OpenAI）、Gemini（Google）、Phi-3V （Microsoft）、Claude-3V（Anthropic），以及 Grok-1.5V（xAI）等。与此同时，国内的 GLM-4V（智谱 AI）、Step-1.

原文链接：抛弃视觉编码器，这个「原生版」多模态大模型也能媲美主流方法