实时视频理解首次上端!面壁小钢炮2.6 携单图、多图、视频理解3 SOTA,全面对标 GPT-4V 最强多模态(面壁是词语吗)

AIGC动态欢迎阅读

原标题:实时视频理解首次上端!面壁小钢炮2.6 携单图、多图、视频理解3 SOTA,全面对标 GPT-4

V 最强多模态

关键字:比亚迪,模型,能力,华为,字节跳动

文章来源:AI前线

内容字数:0字

内容摘要:

整理 | 褚杏娟

8 月 6 日,面壁智能宣布「小钢炮」 MiniCPM-V 2.6 模型重磅上新!据悉,该模型仅 8B 参数,但将实时视频理解、多图联合理解(还包括多图 OCR、多图 ICL 等)能力首次搬上了端侧多模态模型。

据介绍,MiniCPM-V 2.6 延续了小钢炮系列一贯的以小博大与高效低成本特点:

“三合一”最强端侧多模态:首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V,单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini 。

多项功能首次上端:实时视频理解、多图联合理解、多图 ICL 视觉类比学习、多图 OCR 等功能,第一次让端侧模型睁开观察、理解真实流动世界的「眼睛」,不仅看得清晰,还能有样学样、模仿学习。

极致高效,最高多模态像素密度:类比知识密度,小钢炮 2.6 取得了两倍于 GPT-4o 的单 token 编码像素密度(token density),在端侧方寸之地,一路将大模型「能效比」挖到极限。这一进展,得益于视觉 token 相比上一代下降 30% ,比同类模型低 75%。

端侧友好:量

原文链接:实时视频理解首次上端!面壁小钢炮2.6 携单图、多图、视频理解3 SOTA,全面对标 GPT-4V 最强多模态

联系作者

文章来源:AI前线

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?