AIGC动态欢迎阅读
原标题:多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据
构建多模态基准
关键字:模型,数据,图像,视觉,代码文章来源:新智元
内容字数:0字内容摘要:
新智元报道编辑:乔杨
【新智元导读】LLM的数学推理能力缺陷得到了很多研究的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。
语言模型已经可以写诗写小说了,但是依旧算不对9.11和9.9比大小的问题。
同样的问题也出现在视觉模型中,它们能完美理解自然景色或人物照片,却无法处理各种图表任务,甚至看表读时间都是难题。
如果要将AI系统用在更多专业领域,这些能力缺陷就显得极为突出。
最近,浙江大学、中科院软件研究所、上海科技大学等机构就联合提出了一种新的多模态基准,专门衡量模型对抽象图像的理解能力和视觉推理能力。
论文地址:https://arxiv.org/pdf/2407.07053
数据集共包含11,193个带有相关问题的抽象图像,涵盖了仪表板、路线图、图表、表格、流程图、关系图、视觉谜题和2D平面图等8大类别,此外还有额外的62,476条数据用于微调模型。
经过测试,人类在该基准上可以达到至少82.1%的准确率,原文链接:多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
联系作者
文章来源:新智元
作者微信:
作者简介: