reward model-(reward被动)

奖励模型(Reward Model)相关内容如下:

在训练 GPT 助手方面,对于奖励模型,需要将提示排成行,提示在三行中相同,但完成项不同。黄色的 token 来自 SFT 模型,在最后添加特殊的奖励读出 token,监督单个绿色 token 的 transformer,它会预测完成项的质量。做出预测后,根据模型对完成项的排名与来自人类承包商的比较事实数据制定损失函数,训练模型使其做出与比较事实数据相一致的奖励预测,从而能够评估提示的完成程度。

此外,关于盈利模式,比如在菠萝作词家平台,可以提供不同级别的订阅套餐,包括基础套餐和高级套餐,分别提供不同服务。还可以与音乐制作人等建立项目合作关系,按项目费用或作品分成获取收益。对于优秀歌词作品,平台可与创作者分享版权收益。也能吸引音乐相关品牌及广告商入驻,通过展示广告、品牌联名等增加收入,或为品牌定制专属歌词内容。最后可以开设线上或线下的歌词创作培训课程。

在 GPT 模型方面,开发者上架经过审核和筛选的 GPT 模型,可获得曝光和赚取收益,虽然官方未公开详细盈利模式,但可能包括多种方式。

0
分享到:
没有账号? 忘记密码?