AIGC动态欢迎阅读
原标题:让AI更懂物理世界!人大北邮上海AI Lab等提出多模态分割新方法 | ECCV2024
关键字:显著特征,表达式,对象,子集,时序文章来源:量子位
内容字数:0字内容摘要:
中国人民大学王耀霆 投稿量子位 | 公众号 QbitAI让AI像人类一样借助多模态线索定位感兴趣的物体,有新招了!
来自人大高瓴GeWu-Lab、北邮、上海AI Lab等机构的研究人员提出Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,视听场景下的指代分割),让AI能看、会听,更懂真实物理世界。
相关论文已入选顶会ECCV2024。
举个例子,在下面这张图中,机器如何准确定位真正在演奏乐器的人?
搞单打独斗肯定不行,但这正是已有研究正在做的。(各自从视觉、文本和音频线索的角度出发)
视频对象分割(VOS,Video Object Segmentation):通常以第一帧中的对象掩码作为参考,指导后续帧中特定对象的分割。(严重依赖于第一帧的精确标注)
视频对象参考分割(Ref-VOS,Referring Video Object Segmentation):基于自然语言描述分割视频中的物体,取代了VOS中的掩码标注。(虽然更易于访问,但能力有限)
视听分割(AVS,Audio-Visual Segmentation):以音原文链接:让AI更懂物理世界!人大北邮上海AI Lab等提出多模态分割新方法 | ECCV2024
联系作者
文章来源:量子位
作者微信:
作者简介: