多模态CoT思维链架构来了，现已开源｜来自厦大&腾讯优图（多模态包括哪些模态组成）

原标题：多模态CoT思维链架构来了，现已开源｜来自厦大&腾讯

优图

关键字：腾讯,任务,模块,生成器,信息

文章来源：量子位

内容字数：6586字

Happy 投稿量子位 | 公众号 QbitAI多模态大模型，也有自己的CoT思维链了！

厦门大学&腾讯优图团队提出一种名为“领唱员（Cantor）”的决策感知多模态思维链架构，无需额外训练，性能大幅提升。

在 ScienceQA 上，基于GPT-3.5的Cantor准确率达到了82.39%，相比基于GPT-3.5的思维链方法提升了4.08%。

在更具挑战性的MathVista上，基于Gemini的Cantor准确率比原始Gemini提高了5.9%。

目前Cantor论文已上传arXiv，代码也已经开源。（地址在文末领取）‍‍‍‍‍

多模态专属思维链思想链（Chain-of-Thought, CoT）是一种广泛应用的提示方法，通过添加中间推理步骤，可以显著增强大模型的推理能力。

然而，在视觉推理任务中，模型不仅需要把握问题背后的总体逻辑，还需结合图像信息进行具体分析。

多模态思维链应运而生。

现有的多模态思维链方法通常将问题分解为多个相关的子任务，并调用各种外部工具依次处理。

然而，由于视觉信息不足和低级感知工具的局限性，这种范式在决策中面临潜在的“决策幻觉”，以及低级感知工具无法提供

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破