国产多模态卷上下文长度：原生支持24K图文输入输出，图像视频理解对标GPT4V（多模态设计）

原标题：国产多模态卷上下文长度：原生支持24K图文输入输出，图像视频

理解对标GPT4V

关键字：模型,图像,视频,能力,代码

文章来源：量子位

内容字数：0字

陈林投稿自凹非寺量子位 | 公众号 QbitAI国产多模态大模型，也开始卷上下文长度。

书生·浦语灵笔（InternLM-XComposer）多模态大模型升级2.5版本——

原生支持24K多模态图文上下文，超过20轮的图文交互，具备图像视频理解、网页创作、图文写作等多项功能。

该开源模型一出，一度在Hugging Face登上热榜第五。

作为8B量级性能最优秀的多模态大模型之一，它在多项评测性能上对标GPT4V和Gemini Pro。

而除了支持长上下文输入，InternLM-XComposer 2.5版本（以下简称IXC 2.5）同时训练了长序列输出能力，模型支持高质量网页创作和文章生成。

兼容三种多模态理解能力IXC 2.5同时兼顾了多模态模型的理解和内容输出能力，主要包括三种多模态理解能力。

包括超过4K分辨率的图像理解、多轮多图超长对话、精细视频内容分析。

来具体看看大模型实力如何。

高分辨率图像理解，它支持分析文档、网页、图表等信息丰富的超高清图像。

比如扔给它之前的文章，图像分辨率为1312×22619像素，并询问IXC 2.5关于截图内容的问题。

嗯，还能知道是量子位

原文链接：国产多模态卷上下文长度：原生支持24K图文输入输出，图像视频理解对标GPT4V

文章来源：量子位

作者微信：

作者简介：