多模态CoT思维链架构来了,现已开源|来自厦大&腾讯优图(多模态包括哪些模态组成)

AIGC动态欢迎阅读

原标题:多模态CoT思维链架构来了,现已开源|来自厦大&腾讯

优图

关键字:腾讯,任务,模块,生成器,信息

文章来源:量子位

内容字数:6586字

内容摘要:

Happy 投稿量子位 | 公众号 QbitAI多模态大模型,也有自己的CoT思维链了!

厦门大学&腾讯优图团队提出一种名为“领唱员(Cantor)”的决策感知多模态思维链架构,无需额外训练,性能大幅提升。

在 ScienceQA 上,基于GPT-3.5的Cantor准确率达到了82.39%,相比基于GPT-3.5的思维链方法提升了4.08%。

在更具挑战性的MathVista上,基于Gemini的Cantor准确率比原始Gemini提高了5.9%。

目前Cantor论文已上传arXiv,代码也已经开源。(地址在文末领取)‍‍‍‍‍

多模态专属思维链思想链(Chain-of-Thought, CoT)是一种广泛应用的提示方法,通过添加中间推理步骤,可以显著增强大模型的推理能力。

然而,在视觉推理任务中,模型不仅需要把握问题背后的总体逻辑,还需结合图像信息进行具体分析。

多模态思维链应运而生。

现有的多模态思维链方法通常将问题分解为多个相关的子任务,并调用各种外部工具依次处理。

然而,由于视觉信息不足和低级感知工具的局限性,这种范式在决策中面临潜在的“决策幻觉”,以及低级感知工具无法提供

原文链接:多模态CoT思维链架构来了,现已开源|来自厦大&腾讯优图

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?