苹果多模态模型大升级!文本密集、多图理解,全能小钢炮(ios 模态)

AIGC动态欢迎阅读

原标题:苹果多模态模型大升级!文本

密集、多图理解,全能小钢炮

关键字:数据,模型,图像,作者

,文本

文章来源:新智元

内容字数:0字

内容摘要:

新智元报道编辑:alan

【新智元导读】近日,一向画风精致的「苹果牌AI」,也推出了升级版的多模态大模型,从1B到30B参数,涵盖密集和专家混合模型,密集文本、多图理解,多项能力大提升。多模态大语言模型(MLLM)如今已是大势所趋。

过去的一年中,闭源阵营的GPT-4

o、GPT-4V、Gemini-1.5和Claude-3.5等模型引领了时代。

而开源MLLM也同样在蓬勃发展,LLaVA系列,InternVL2,Cambrian-1和Qwen2-VL的强劲表现,让作为老大哥的GPT-4o时常躺枪。

开源与闭源之间差距缩小,兼具单图、多图、视频理解能力的MLLM也成为大家研究的重点。

说到潮流,怎么能没有苹果的一席之地?

近日,一向画风精致的「苹果牌AI」,也推出了升级版的多模态大模型——MM1.5。

论文地址:https://arxiv.org/pdf/2409.20566

MM1.5以前代MM1模型为基础,采用数据为中心的方法进行训练,显著增强了文本密集型图像理解、视觉指代和定位、以及多图像推理的能力。

MM1.5系列的参数量从1B到30B,涵盖密集和专家混合(MoE)模型,即使较

原文链接:苹果多模态模型大升级!文本密集、多图理解,全能小钢炮

联系作者

文章来源:新智元

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?