国产多模态卷上下文长度:原生支持24K图文输入输出,图像视频理解对标GPT4V(多模态设计)

AIGC动态欢迎阅读

原标题:国产多模态卷上下文长度:原生支持24K图文输入输出,图像视频

理解对标GPT4V

关键字:模型,图像,视频,能力,代码

文章来源:量子位

内容字数:0字

内容摘要:

陈林 投稿自 凹非寺量子位 | 公众号 QbitAI国产多模态大模型,也开始卷上下文长度。

书生·浦语灵笔(InternLM-XComposer)多模态大模型升级2.5版本——

原生支持24K多模态图文上下文,超过20轮的图文交互,具备图像视频理解、网页创作、图文写作等多项功能。

该开源模型一出,一度在Hugging Face登上热榜第五。

作为8B量级性能最优秀的多模态大模型之一,它在多项评测性能上对标GPT4V和Gemini Pro。

而除了支持长上下文输入,InternLM-XComposer 2.5版本(以下简称IXC 2.5)同时训练了长序列输出能力,模型支持高质量网页创作和文章生成。

兼容三种多模态理解能力IXC 2.5同时兼顾了多模态模型的理解和内容输出能力,主要包括三种多模态理解能力。

包括超过4K分辨率的图像理解、多轮多图超长对话、精细视频内容分析。

来具体看看大模型实力如何。

高分辨率图像理解,它支持分析文档、网页、图表等信息丰富的超高清图像。

比如扔给它之前的文章,图像分辨率为1312×22619像素,并询问IXC 2.5关于截图内容的问题。

嗯,还能知道是量子位

原文链接:国产多模态卷上下文长度:原生支持24K图文输入输出,图像视频理解对标GPT4V

联系作者

文章来源:量子位

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?