港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体(字节跳动大湾区总部落子深圳,或将筹建香港研发中心)

AIGC动态欢迎阅读

原标题:港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体关键字:字节跳动,模型,能力,物体,语言

文章来源:量子位

内容字数:3751字

内容摘要:

允中 发自 凹非寺量子位 | 公众号 QbitAI当前,多模态大模型(MLLM)在多项视觉任务上展现出了强大的认知理解能力。

然而大部分多模态大模型局限于单向的图像理解,难以将理解的内容映射回图像上。

比如,模型能轻易说出图中有哪些物体,但无法将物体在图中准确标识出来。

定位能力的缺失直接限制了多模态大模型在图像编辑,自动驾驶,机器人控制等下游领域的应用。

针对这一问题,港大和字节跳动商业化团队的研究人员提出了一种新范式Groma——

通过区域性图像编码来提升多模态大模型的感知定位能力。

在融入定位后,Groma可以将文本内容和图像区域直接关联起来,从而显著提升对话的交互性和指向性。

核心思路如何赋予多模态大模型定位物体的能力,乃至于将文字内容和图像区域关联起来,做到“言之有物”,是当前一大研究热点。

常见的做法是微调大语言模型使其直接输出物体坐标。然而这种方法却有着诸多限制:

1、在文本上预训练的大语言模型本身不具备空间理解能力,仅依靠少量数据微调很难精准定位物体。

2、定位任务对输入图像的分辨率有较高要求,但提高分辨率会显著增加多模态大模型的计算量。

3、大语言模型的输出形式不适合

原文链接:港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?