面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!(面壁什么意思网络)

AIGC动态欢迎阅读

原标题:面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4

V,图像编码快150倍!

关键字:华为,报告,字节跳动,模型,能力

文章来源:AI前线

内容字数:4836字

内容摘要:

整理 | 褚杏娟

5 月 20 日,面壁智能小钢炮 MiniCPM 系列推出端侧多模态模型 MiniCPM-Llama3-V 2.5 并开源。据悉,该模型且支持 30+ 多种语言,并且具有以下特性:

最强端侧多模态综合性能:超越多模态巨无霸 Gemini Pro 、GPT-4V;

OCR 能力 SOTA!9 倍像素更清晰,难图长图长文本精准识别;

图像编码快 150 倍!首次端侧系统级多模态加速。

MiniCPM-Llama3-V 2.5 开源地址:

https://github.com/OpenBMB/MiniCPM-V

MiniCPM 系列开源地址:

https://github.com/OpenBMB/MiniCPM

Hugging Face 下载地址:

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_58 B 端侧模型,

超越 GPT-4V、Gemini Pro

MiniCPM-Llama3-V 2.5 以 8B 端侧模型参数量级,贡献了惊艳的 OCR(光学字符识别)SOTA 成绩,以及端侧模型中的最佳多模态综合成绩与幻觉能

原文链接:面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!

联系作者

文章来源:AI前线

作者微信:ai-front

作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。

0
分享到:
没有账号? 忘记密码?