4秒看完2小时电影!阿里发布通用多模态大模型mPLUG-Owl3 | 开源(阿里grow模型是什么)

AIGC动态欢迎阅读

原标题:4秒看完2小时电影!阿里发布通用多模态大模型

mPLUG-Owl3 | 开源

关键字:模型,报告,图片,视觉,特征

文章来源:量子位

内容字数:0字

内容摘要:

阿里mPLUG团队 投稿量子位 | 公众号 QbitAI4秒看完2小时电影,阿里团队新成果正式亮相——

推出通用多模态大模型mPLUG-Owl3,专门用来理解多图、长视频。

具体来说,以LLaVA-Next-Interleave为基准,mPLUG-Owl3将模型的First Token Latency缩小了6倍,且单张A100能建模的图像数目提升了8倍,达到了400张图片,实测4秒就能看完一部2小时的电影。

换句话说,模型的推理效率有了极大提升。

而且不牺牲模型的准确性。

mPLUG-Owl3还在多模态大模型所涉及的各种场景,包括单图、多图、视频领域的诸多Benchmarks上达到了SOTA。

论文作者来自阿里mPLUG团队,他们一直深耕多模态大模型底座,在此之前还提出了:

高效多模态底座mPLUG系列

模块化多模态大语言模型底座mPLUG-Owl系列

文档理解底座mPLUG-DocOwl系列

下面就让我们来了解一下本次发布的mPLUG-Owl3究竟带来了什么黑科技吧。

玩法解锁团队展示了mPLUG-Owl3的几种常见用法。

多模态检索增强一般来说,对于模型没有学过的知识,通过检索系统

原文链接:4秒看完2小时电影!阿里发布通用多模态大模型mPLUG-Owl3 | 开源

联系作者

文章来源:量子位

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?