模型排行榜(开源大模型排行榜)

以下是关于模型排行榜的相关信息:

斯坦福发布了大模型排行榜 AlpacaEval: 这是一种基于 LLM 的全自动评估基准,更加快速、廉价和可靠。 项目链接:https://github.com/tatsu-lab/alpaca_eval ,排行榜链接:https://tatsu-lab.github.io/alpaca_eval/ 。 选择了开源和闭源模型,还开设了“准中文”排行榜。 分为以 GPT-4 和 Claude 为元标注器的两个子榜单。 在 GPT-4 评估榜单中,GPT-4 稳居第一,Claude 和 ChatGPT 分别排名第二和第三,开源模型中的 WizardLM 排名第四,Vicuna 排名第六,Falcon Instruct 40B 位居 12 名。 相比其他 LLM 自动评测器,如 alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4 还有人类评估,斯坦福的 AlpacaEval 评测器采用的 GPT-4 评测方式取得了最高的人类一致性,以及较低的误差,并仅需约 1/22 的人类标注成本。 支持两种模式的模型评估方式。 Andrej Karpathy 提到了另一个排行榜——聊天机器人竞技场,由伯克利的团队管理,根据 ELO 评级对不同语言模型进行排名,计算方式与国际象棋中的类似,顶部是专有模型,下方是开放权重的模型。

0
分享到:
没有账号? 忘记密码?