AIGC动态欢迎阅读
原标题:GPT-4
结合SAM2:免训练多模态分割的全新解决方案!| 已开源
关键字:关键,对象,方法,音频,类别文章来源:量子位
内容字数:0字内容摘要:
北京航空航天大学 李红羽 投稿 凹非寺量子位 | 公众号 QbitAI免训练多模态分割领域有了新突破!
中科院信工所、北航、合工大、美团等单位联合提出了一种名为AL-Ref-SAM 2的方法。
这种方法利用GPT-4和SAM-2来统一多模态分割,让系统在免训练的情况下,也能拥有不亚于全监督微调的性能!
≥ 全监督方法多模态分割主要有两种方法:一种是依据文字描述找到视频中特定对象的分割方法(RVOS),另一种是通过声音识别视频中发声对象的方法(AVS)。
免训练的多模态视频指代分割虽然在数据和训练成本上有较大优势,却由于缺乏在特定任务数据上针对性的模型参数调整,导致性能与全监督方法有较大差距。
而研究团队要解决的就是这个问题。
实验中,他们对多个RVOS基准数据集进行了广泛验证,包括Ref-YouTube-VOS、Ref-DAVIS17和MeViS,同时在AVSBench的多个子集上也进行了测试。
最后的实验结果显示,AL-Ref-SAL 2在这些数据集上的表现不仅优于其他无需训练和弱监督的方法,并且甚至在一定情况下,系统的性能可以与全监督方法相媲美。
特别是在Ref-YouTube-V原文链接:GPT-4结合SAM2:免训练多模态分割的全新解决方案!| 已开源
联系作者
文章来源:量子位
作者微信:
作者简介: