马斯克的首款多模态大模型来了，GPT-4V又被超越了一次（马斯克样板房）

AIGC动态欢迎阅读

原标题：马斯克的首款多模态大模型来了，GPT-4

V又被超越了一次

关键字：模型,基准,世界,能力,人工智能

文章来源：机器之心

内容字数：8857字

内容摘要：

机器之心报道

机器之心编辑部自从 2023 年 11 月 Grok 首次亮相以来，马斯克的 xAI 正在大模型领域不断取得进步，向OpenAI

等先行者发起进攻。在 Grok-1 开源后不到一个月，xAI 的首个多模态模型就问世了。

昨天，xAI 推出了 Grok-1.5V，该模型不仅能理解文本，还能处理文档、图表、截图和照片中的内容。官方博文表示：「Grok-1.5V 在许多领域都能媲美当前顶尖的多模态模型，从多学科推理到理解文档、科学图表、图表、截图和照片。」 xAI 还表示，在接下来的几个月里，预计将在图像、音频和视频等各种模态上显著提高模型能力。

我们看到了 Grok-1.5V 与 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 的测试对比。其中特别提到的是：「Grok 在理解物理世界方面的能力尤其令我们兴奋。在我们新推出的 RealWorldQA 基准测试中，Grok 的表现优于同类产品。对于下面的所有数据集，我们都是在没有思维链提示的情况下对 Grok 进行评估的。」如果 Grok-1.5 能在类似于 Grok-1

原文链接：马斯克的首款多模态大模型来了，GPT-4V又被超越了一次