4秒看完2小时电影！阿里发布通用多模态大模型mPLUG-Owl3 | 开源（阿里grow模型是什么）

原标题：4秒看完2小时电影！阿里发布通用多模态大模型

mPLUG-Owl3 | 开源

关键字：模型,报告,图片,视觉,特征

文章来源：量子位

内容字数：0字

阿里mPLUG团队投稿量子位 | 公众号 QbitAI4秒看完2小时电影，阿里团队新成果正式亮相——

推出通用多模态大模型mPLUG-Owl3，专门用来理解多图、长视频。

具体来说，以LLaVA-Next-Interleave为基准，mPLUG-Owl3将模型的First Token Latency缩小了6倍，且单张A100能建模的图像数目提升了8倍，达到了400张图片，实测4秒就能看完一部2小时的电影。

换句话说，模型的推理效率有了极大提升。

而且不牺牲模型的准确性。

mPLUG-Owl3还在多模态大模型所涉及的各种场景，包括单图、多图、视频领域的诸多Benchmarks上达到了SOTA。

论文作者来自阿里mPLUG团队，他们一直深耕多模态大模型底座，在此之前还提出了：

高效多模态底座mPLUG系列

模块化多模态大语言模型底座mPLUG-Owl系列

文档理解底座mPLUG-DocOwl系列

下面就让我们来了解一下本次发布的mPLUG-Owl3究竟带来了什么黑科技吧。

玩法解锁团队展示了mPLUG-Owl3的几种常见用法。

多模态检索增强一般来说，对于模型没有学过的知识，通过检索系统

文章来源：量子位

作者微信：

作者简介：