多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键(多模态的分类)

AIGC动态欢迎阅读

原标题:多模态模型学会打扑克:表现超越GPT-4

v,全新强化学习框架是关键

关键字:模型,任务,能力,环境,智能

文章来源:量子位

内容字数:0字

内容摘要:

Simon Zhai 投稿量子位 | 公众号 QbitAI只用强化学习来微调,无需人类反馈,就能让多模态大模型学会做决策!

这种方法得到的模型,已经学会了看图玩扑克、算“12点”等任务,表现甚至超越了GPT-4v。

这是来自UC伯克利等高校最新提出的微调方法,研究阵容也是相当豪华:

图灵奖三巨头之一、Meta首席AI科学家、纽约大学教授LeCun

UC伯克利大牛、ALOHA团队成员Sergry Levine

ResNeXt一作、Sora基础技术DiT作者谢赛宁

香港大学数据科学学院院长、UC伯克利教授马毅

该方法名为RL4VLM,论文预印本已经上线,相关代码也已在GitHub中开源。

RL4VLM提出了一种新的算法框架,直接使用强化学习方法对多模态大模型进行微调。

其中奖励信息直接来源于环境当中,摆脱了RLHF中对于人类反馈的需要,从而直接赋予了多模态模型决策能力。

对于RL4VLM的意义,参与了这项工作的马毅教授这样说:

一方面希望大家对模型真实性能有更客观清醒的认识;另一方面,也希望能建立一个平台,支持探索如何进一步提升模型性能。

那么,用这种方法微调出来的多模态大模型,都能让智能

原文链接:多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?