阿里开源110B大模型!超越LLama3!(阿里开源软件)

AIGC动态欢迎阅读

原标题:阿里开源110B大模型

!超越LLama3!

关键字:模型,参数,语言,基础,系列

文章来源:算法邦

内容字数:1872字

内容摘要:

4月26日晚间,阿里正式发布了110B的千问1.5开源大模型。

110B是中文开源模型的最大尺寸,用了GQA,32k上下文,除了中文能力亮眼,英文表现效果好于LLama3 70B和Mixtral-8x22B。近期开源社区陆续出现了千亿参数规模以上的大模型,这些模型都在各项评测中取得杰出的成绩。本周,我们开源1100亿参数的Qwen1.5系列首个千亿参数模型Qwen1.5-110B,该模型在基础能力评估中与Meta-Llama3-70B相媲美,在Chat评估中表现出色,包括MT-Bench和AlpacaEval 2.0。

模型特性 Qwen1.5-110B与其他Qwen1.5模型相似,采用了相同的Transformer解码器架构。它包含了分组查询注意力(GQA),在模型推理时更加高效。该模型支持32K tokens的上下文长度,同时它仍然是多语言的,支持英、中、法、西、德、俄、日、韩、越、阿等多种语言。

模型效果

我们对基础语言模型进行了一系列评估,并与最近的SOTA语言模型Meta-Llama3-70B以及Mixtral-8x22B进行了比较。上述结果显示,新的110B模型在基础能力方

原文链接:阿里开源110B大模型!超越LLama3!

联系作者

文章来源:算法邦

作者微信:allplusai

作者简介:智猩猩矩阵账号之一,聚焦生成式AI,重点关注模型与应用。

0
分享到:
没有账号? 忘记密码?