面壁智能发布最强端侧多模态模型：超越Gemini Pro 、GPT-4V，图像编码快150倍！（面壁什么意思网络）

原标题：面壁智能发布最强端侧多模态模型：超越Gemini Pro 、GPT-4

V，图像编码快150倍！

关键字：华为,报告,字节跳动,模型,能力

文章来源：AI前线

内容字数：4836字

整理 | 褚杏娟

5 月 20 日，面壁智能小钢炮 MiniCPM 系列推出端侧多模态模型 MiniCPM-Llama3-V 2.5 并开源。据悉，该模型且支持 30+ 多种语言，并且具有以下特性：

最强端侧多模态综合性能：超越多模态巨无霸 Gemini Pro 、GPT-4V；

OCR 能力 SOTA！9 倍像素更清晰，难图长图长文本精准识别；

图像编码快 150 倍！首次端侧系统级多模态加速。

MiniCPM-Llama3-V 2.5 开源地址：

https://github.com/OpenBMB/MiniCPM-V

MiniCPM 系列开源地址：

https://github.com/OpenBMB/MiniCPM

Hugging Face 下载地址：

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_58 B 端侧模型，

超越 GPT-4V、Gemini Pro

MiniCPM-Llama3-V 2.5 以 8B 端侧模型参数量级，贡献了惊艳的 OCR（光学字符识别）SOTA 成绩，以及端侧模型中的最佳多模态综合成绩与幻觉能

原文链接：面壁智能发布最强端侧多模态模型：超越Gemini Pro 、GPT-4V，图像编码快150倍！

文章来源：AI前线

作者微信：ai-front

作者简介：面向AI爱好者、开发者和科学家，提供大模型最新资讯、AI技术分享干货、一线业界实践案例，助你全面拥抱AIGC。