轻松拿捏4K高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便（vr高清展示模型制作方法）

原标题：轻松拿捏4K高清图像理解！这个多模态大模型

自动分析网页海报内容，打工人简直不要太方便

关键字：分辨率,模型,图像,动态,研究人员

文章来源：量子位

内容字数：3492字

陈林投稿自凹非寺量子位 | 公众号 QbitAI一个可以自动分析PDF、网页、海报、Excel图表内容的大模型，对于打工人来说简直不要太方便。

上海AI Lab，香港中文大学等研究机构提出的InternLM-XComposer2-4KHD（简写为IXC2-4KHD）模型让这成为了现实。

相比于其他多模态大模型不超过1500×1500的分辨率限制，该工作将多模态大模型的最大输入图像提升到超过4K （3840 x1600）分辨率，并支持任意长宽比和336像素～4K动态分辨率变化。

发布三天，该模型就登顶Hugging Face视觉问答模型热度榜单第一。

轻松拿捏4K图像理解先来看效果~

研究人员输入论文（ShareGPT4V: Improving Large Multi-Modal Models with Better Captions）的首页截图（分辨率为2550×3300），并询问论文哪个模型在MMBench上的性能最高。

需要注意的是，该信息在输入截图的正文文字部分并未提及，仅仅出现在一个相当复杂的雷达图中。面对这么刁钻的问题，IXC2-4KHD成功理解了雷达图中的信息，正确回答

原文链接：轻松拿捏4K高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破