苹果一次性开源了8个大模型! 包含模型权重、训练日志和设置,OpenELM全面开源(iphone模型机可以用吗?)

AIGC动态欢迎阅读

原标题:苹果一次性开源了8个大模型

! 包含模型权重、训练日志和设置,OpenELM全面开源

关键字:模型,参数,维度,指令,研究人员

文章来源:夕小瑶科技说

内容字数:6074字

内容摘要:

夕小瑶科技说 原创作者 | 任同学不以开放性著称的苹果居然同时开源了大模型的权重、训练和评估框架,涵盖训练日志、多个保存点和预训练设置。同时升级计算机视觉工具包 CVNets 为 CoreNet!支持 OpenELM!

▲图1.由Stable Diffusion3生成。OpenELM是Apple苹果公司最新推出的语言模型系列,这次一共开源了8个模型,包括OpenELM-270M、OpenELM450M、OpenELM-1_1B和OpenELM-3B的预训练版和指令微调版。

▲图2.OpenELM 采用了decoder-only的架构,并遵循最新的大语言模型(LLM)的设计,包括:

在任何全连接层中不使用可学习的偏置参数,

使用RMSNorm进行预归一化,同时使用旋转位置嵌入(ROPE)来编码位置信息,

使用分组查询注意力(GQA)代替多头注意力(MHA),

将前馈网络(FFN)替换为SwiGLU FFN,

使用Flash Attention来计算缩放点积注意力,

使用与LLama相同的分词器。

▲图3.OpenELM与开源LLM。OpenELM比最近的开放LLM OLMo的性能高出2.

原文链接:苹果一次性开源了8个大模型! 包含模型权重、训练日志和设置,OpenELM全面开源

联系作者

文章来源:夕小瑶科技说

作者微信:xixiaoyaoQAQ

作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189

0
分享到:
没有账号? 忘记密码?