抛弃视觉编码器,这个「原生版」多模态大模型也能媲美主流方法(视觉信息编码)

AIGC动态欢迎阅读

原标题:抛弃视觉编码器,这个「原生版」多模态大模型

也能媲美主流方法

关键字:模型,视觉,编码器,语言,数据

文章来源:机器之心

内容字数:0字

内容摘要:

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com一作刁海文,是大连理工大学博士生,导师是卢湖川教授。目前在北京智源人工智能研究院实习,指导老师是王鑫龙博士。他的研究兴趣是视觉与语言,大模型高效迁移,多模态大模型等。共同一作崔玉峰,毕业于北京航空航天大学,是北京智源人工智能研究院视觉中心算法研究员。他的研究兴趣是多模态模型、生成模型和计算机视觉,主要工作有 Emu 系列。

近期,关于多模态大模型的研究如火如荼,工业界对此的投入也越来越多。国外相继推出了炙手可热的模型,例如 GPT-4o (OpenAI)、Gemini(Google)、Phi-3V (Microsoft)、Claude-3V(Anthropic),以及 Grok-1.5V(xAI)等。与此同时,国内的 GLM-4V(智谱 AI)、Step-1.

原文链接:抛弃视觉编码器,这个「原生版」多模态大模型也能媲美主流方法

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

0
分享到:
没有账号? 忘记密码?