模型排行榜（开源大模型排行榜）

以下是关于模型排行榜的相关信息：

斯坦福发布了大模型排行榜 AlpacaEval：这是一种基于 LLM 的全自动评估基准，更加快速、廉价和可靠。项目链接：https://github.com/tatsu-lab/alpaca_eval ，排行榜链接：https://tatsu-lab.github.io/alpaca_eval/ 。选择了开源和闭源模型，还开设了“准中文”排行榜。分为以 GPT-4 和 Claude 为元标注器的两个子榜单。在 GPT-4 评估榜单中，GPT-4 稳居第一，Claude 和 ChatGPT 分别排名第二和第三，开源模型中的 WizardLM 排名第四，Vicuna 排名第六，Falcon Instruct 40B 位居 12 名。相比其他 LLM 自动评测器，如 alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4 还有人类评估，斯坦福的 AlpacaEval 评测器采用的 GPT-4 评测方式取得了最高的人类一致性，以及较低的误差，并仅需约 1/22 的人类标注成本。支持两种模式的模型评估方式。 Andrej Karpathy 提到了另一个排行榜——聊天机器人竞技场，由伯克利的团队管理，根据 ELO 评级对不同语言模型进行排名，计算方式与国际象棋中的类似，顶部是专有模型，下方是开放权重的模型。

猜你喜欢