轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便(vr高清展示模型制作方法)

AIGC动态欢迎阅读

原标题:轻松拿捏4K高清图像理解!这个多模态大模型

自动分析网页海报内容,打工人简直不要太方便

关键字:分辨率,模型,图像,动态,研究人员

文章来源:量子位

内容字数:3492字

内容摘要:

陈林 投稿自 凹非寺量子位 | 公众号 QbitAI一个可以自动分析PDF、网页、海报、Excel图表内容的大模型,对于打工人来说简直不要太方便。

上海AI Lab,香港中文大学等研究机构提出的InternLM-XComposer2-4KHD(简写为IXC2-4KHD)模型让这成为了现实。

相比于其他多模态大模型不超过1500×1500的分辨率限制,该工作将多模态大模型的最大输入图像提升到超过4K (3840 x1600)分辨率,并支持任意长宽比和336像素~4K动态分辨率变化。

发布三天,该模型就登顶Hugging Face视觉问答模型热度榜单第一。

轻松拿捏4K图像理解先来看效果~

研究人员输入论文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首页截图(分辨率为2550×3300),并询问论文哪个模型在MMBench上的性能最高。

需要注意的是,该信息在输入截图的正文文字部分并未提及,仅仅出现在一个相当复杂的雷达图中。面对这么刁钻的问题,IXC2-4KHD成功理解了雷达图中的信息,正确回答

原文链接:松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?