AssistGPT:可规划、执行、检查和学习的通用多模态助理(计划经济可行性)

AssistGPT: A General Multi-modal Assistant that can Plan, Execute, Inspect, and Learn

Difei Gao, Lei Ji, Luowei Zhou, Kevin Qinghong Lin, Joya Chen, Zihan Fan, Mike Zheng Shou

[National University of Singapore & Microsoft Research Asia]

AssistGPT:可规划、执行、检查和学习的通用多模态助理

要点:

动机:解决复杂的视觉任务在多模态场景下的挑战,包括难以准确分解查询、灵活的输入和中间结果。

方法:提出一个多模态AI助手系统AssistGPT,采用Plan、Execute、Inspect和Learn(PEIL)的交叉代码和语言推理方法,结合LLM和各种工具。

优势:AssistGPT能够处理复杂的视觉相关任务,具有灵活的推理方式和多模态能力,在A-OKVQA和NExT-QA基准测试中取得了最先进的结果。

介绍了一个名为AssistGPT的多模态AI助手系统,通过交叉代码和语言推理方法解决了复杂视觉任务的挑战,并在基准测试和实际应用中展示了其有效性。

https://arxiv.org/abs/2306.08640 

AssistGPT:可规划、执行、检查和学习的通用多模态助理AssistGPT:可规划、执行、检查和学习的通用多模态助理

0
分享到:
没有账号? 忘记密码?