GPT-4结合SAM2:免训练多模态分割的全新解决方案!| 已开源(gpt3)

AIGC动态欢迎阅读

原标题:GPT-4

结合SAM2:免训练多模态分割的全新解决方案!| 已开源

关键字:关键,对象,方法,音频,类别

文章来源:量子位

内容字数:0字

内容摘要:

北京航空航天大学 李红羽 投稿 凹非寺量子位 | 公众号 QbitAI免训练多模态分割领域有了新突破!

中科院信工所、北航、合工大、美团等单位联合提出了一种名为AL-Ref-SAM 2的方法。

这种方法利用GPT-4和SAM-2来统一多模态分割,让系统在免训练的情况下,也能拥有不亚于全监督微调的性能!

≥ 全监督方法多模态分割主要有两种方法:一种是依据文字描述找到视频中特定对象的分割方法(RVOS),另一种是通过声音识别视频中发声对象的方法(AVS)。

免训练的多模态视频指代分割虽然在数据和训练成本上有较大优势,却由于缺乏在特定任务数据上针对性的模型参数调整,导致性能与全监督方法有较大差距。

而研究团队要解决的就是这个问题。

实验中,他们对多个RVOS基准数据集进行了广泛验证,包括Ref-YouTube-VOS、Ref-DAVIS17和MeViS,同时在AVSBench的多个子集上也进行了测试。

最后的实验结果显示,AL-Ref-SAL 2在这些数据集上的表现不仅优于其他无需训练和弱监督的方法,并且甚至在一定情况下,系统的性能可以与全监督方法相媲美。

特别是在Ref-YouTube-V

原文链接:GPT-4结合SAM2:免训练多模态分割的全新解决方案!| 已开源

联系作者

文章来源:量子位

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?