复旦字节强强联手,量身定制多模态思维链,让7B模型全面超越GPT-4V(fdu复旦)

AIGC动态欢迎阅读

原标题:复旦字节强强联手,量身定制多模态思维链,让7B模型全面超越GPT-4

V

关键字:模型,视觉,图像,字节跳动,对象

文章来源:夕小瑶科技说

内容字数:0字

内容摘要:

夕小瑶科技说 原创作者 | 任同学多模态大模型在不同的任务中表现出了令人印象深刻的能力,但是在处理复杂任务时,模型的性能仍然受到了单步推理范式的限制。为此,复旦团队联合字节跳动提出了 VoCoT,这是一个多步骤的、基于视觉的、以对象为中心的思想链推理框架。

VoCoT 具有两个关键特征:(1)以对象为中心的推理路径,围绕跨模态共享的对象级信息展开,以及(2)以多模态交叉和对齐的方式对对象概念进行视觉上的表征,有效地弥合了 LMM 在长文本过程中的模态差异。

通过将 VoCoT 引入流行的开源 LMM 架构中,研究人员引入了多模态大模型 VolCano。在仅有 7B 个参数和有限的输入分辨率的条件下,VolCano 在各种场景下都表现出了优异的性能,在需要复杂推理的任务中超越了包括 GPT-4V 在内的 SOTA 模型。

论文标题:

VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models

论文链接:

https://arxiv.org/abs/2405.16919

背景与挑战

原文链接:复旦字节强强联手,量身定制多模态思维链,让7B模型全面超越GPT-4V

联系作者

文章来源:夕小瑶科技说

作者微信:xixiaoyaoQAQ

作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189

0
分享到:
没有账号? 忘记密码?