AIGC动态欢迎阅读
o、Claude 3.5 Sonnet却挑战失败了
关键字:模型,任务,数量,网格,视觉
文章来源:大数据文摘
内容字数:0字内容摘要:
大数据文摘授权转载自学术头条
撰文:马雪薇
GPT-4o、Claude 3.5 Sonnet 等具有视觉能力的大语言模型(LLM),是否能像人类一样感知图像?最新研究表明,在一套人类非常容易完成的 7 项视觉任务(比如两个圆是否重叠、两条线是否相交等)中,Claude 3.5 Sonnet 等四种最先进的视觉语言模型(VLM)的平均准确率只有 56.2%。它们似乎并不是在真正地“看”,而是在做有根据的猜测。
相关研究论文以“Vision language models are blind”为题,已发表在预印本网站 arXiv 上。
然而,这是否意味着这些“视觉” AI 模型毫无用处?远非如此。VLM 在识别诸如人类行为和表情、日常物品和情境的照片等方面都表现了出很高的准确性。
正如论文作者之一 Anh Totti Nguyen 所说:“‘盲目’对人类来说就有多种不同的定义,目前还没有一个词可以描述 AI 对我们展示的图像的这种盲目性,也没有技术能够准确地可视化模型看到的东西。它们的行为是输入文本提示、输入图像和数十亿权重的复杂函数。”VLM 到底有多“瞎”?研究团队通过 7 项简单任务原文链接:还不如人类五岁小孩,难度为零的视觉测试,GPT-4o、Claude 3.5 Sonnet却挑战失败了
联系作者
文章来源:大数据文摘
作者微信:BigDataDigest
作者简介:普及数据思维,传播数据文化