AIGC动态欢迎阅读
原标题:斯坦福/苹果等23所机构发布DCLM基准测试,高质量数据集能否撼动Scaling Laws?基础模型
与Llama3 8B表现相当
关键字:模型,数据,研究人员,解读,规模文章来源:HyperAI超神经
内容字数:0字内容摘要:
作者:李姝
编辑:李宝珠,三羊
华盛顿大学、斯坦福大学、苹果等 23 所机构最新研究成果发布:DCLM 基准测试可生成高质量数据集,实现了从 412M 到 7B 不同参数模型参数规模上的试验数据管理策略,基础模型与 Llama 3 8B 表现相当。人们对 AI 模型的关注高热不下,关于 Scaling Laws 的争论也愈发热烈。
OpenAI于 2020 年在论文「Scaling Laws for Neural Language Models」中首次提出 Scaling Laws,它被看作是大语言模型的摩尔定律。其释义可简要总结为:随着模型大小、数据集大小、(用于训练的)计算浮点数的增加,模型的性能会提高。
在 Scaling Laws 的影响下,不少追随者始终认为「大」依然是提高模型性能的第一性原理。尤其是「财大气粗」的大厂,更加依赖于大型、多样化的语料数据集。
对此,清华大学计算机系博士秦禹嘉指出,「LLaMA 3 告诉大家一个悲观的现实:模型架构不用动,把数据量从 2T 加到 15T 就可以暴力出奇迹。这一方面告诉大家基座模型长期来看就是大厂的机会;另一方面,考虑到 Scal原文链接:斯坦福/苹果等23所机构发布DCLM基准测试,高质量数据集能否撼动Scaling Laws?基础模型与Llama3 8B表现相当
联系作者
文章来源:HyperAI超神经
作者微信:
作者简介: