英伟达开源合成数据大模型:奖励模型,超过GPT-4 Turbo(英伟达开发板有什么用)

AIGC动态欢迎阅读

原标题:英伟达开源合成数据模型:奖励模型,超过GPT-4

Turbo

关键字:模型,数据,自然语言,高效,框架

文章来源:算法邦

内容字数:0字

内容摘要:

直播预告 | 6月18日上午10点,「智猩猩AI新青年讲座」第240讲正式开讲,邀请到德州大学奥斯汀分校刘星超博士将直播讲解《利用直线概率流加速Stable Diffusion的训练推理》,欢迎扫码报名~6月15日,全球AI领导者英伟达(Nvidia)在官网开源了,专门用于生成合成数据的大模型Nemotron-4 340B。

开发人员通过该模型,可以快速生成医疗、金融、制造、营销等不同领域的数据,用于预训练和微调特定的大模型。

据悉,Nemotron-4 340B一共有基础模型、奖励模型和指导模型三个版本,支持RLHF(人类反馈强化学习)、LoRA(低序适配)、SFT(监督式微调)等主流高效微调方法。

其中,奖励模型版本更是登上了huggingface的奖励模型排行榜的第一名,击败了OpenAI

的GPT-4 turo、谷歌的Gemini-1.5 Pro、Cohere的may等知名厂商的产品。

而指导模型在MMLU、GSM8K、MBPP等知名测试平台的评估数据击败了Llama-3 70B、通义千问-2-72B、Claude-3-Sonnet等知名开/闭源模型,仅次于OpenAI的GPT-

原文链接:英伟达开源合成数据大模型:奖励模型,超过GPT-4 Turbo

联系作者

文章来源:算法邦

作者微信:allplusai

作者简介:智猩猩矩阵账号之一,聚焦生成式AI,重点关注模型与应用。

0
分享到:
没有账号? 忘记密码?