复旦字节强强联手，量身定制多模态思维链，让7B模型全面超越GPT-4V（fdu复旦）

原标题：复旦字节强强联手，量身定制多模态思维链，让7B模型全面超越GPT-4

文章来源：夕小瑶科技说

内容字数：0字

夕小瑶科技说原创作者 | 任同学多模态大模型在不同的任务中表现出了令人印象深刻的能力，但是在处理复杂任务时，模型的性能仍然受到了单步推理范式的限制。为此，复旦团队联合字节跳动提出了 VoCoT，这是一个多步骤的、基于视觉的、以对象为中心的思想链推理框架。

VoCoT 具有两个关键特征：（1）以对象为中心的推理路径，围绕跨模态共享的对象级信息展开，以及（2）以多模态交叉和对齐的方式对对象概念进行视觉上的表征，有效地弥合了 LMM 在长文本过程中的模态差异。

通过将 VoCoT 引入流行的开源 LMM 架构中，研究人员引入了多模态大模型 VolCano。在仅有 7B 个参数和有限的输入分辨率的条件下，VolCano 在各种场景下都表现出了优异的性能，在需要复杂推理的任务中超越了包括 GPT-4V 在内的 SOTA 模型。

论文标题：

VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models

论文链接：

https://arxiv.org/abs/2405.16919

背景与挑战

原文链接：复旦字节强强联手，量身定制多模态思维链，让7B模型全面超越GPT-4V

文章来源：夕小瑶科技说

作者微信：xixiaoyaoQAQ

作者简介：专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员，覆盖500多家海内外机构投资人，互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189