一个拥有130亿参数的巨大阿拉伯语语言模型隆重登场(语言阿拉伯文)

Jais LLM是一个庞大的阿拉伯语语言模型,拥有130亿参数,是由G42 Inception、MBZUAI和Cerebras共同合作推出的成果。这一模型是在一个极其庞大的3950亿单词的阿拉伯语和英语数据集上进行训练的,旨在捕捉阿拉伯语的复杂性和细微差异。此举标志着阿拉伯世界人工智能领域的重要突破,旨在为全球40亿使用阿拉伯语的个人用户提供更出色的生成式人工智能体验。

这个名为Jais的开源模型是为了加速阿拉伯语人工智能生态系统的发展而发布的。该项目的目标是鼓励科学、学术和开发社区的参与,将阿拉伯语语言处理提升到新的高度。Inception的首席执行官Andrew Jackson表示,这一合作标志着中东人工智能领域的创新和合作的崛起,为实现阿拉伯语在人工智能领域的重要地位设立了新的标杆。

Jais模型的性能在阿拉伯模型中表现出色,而其训练数据还包括了2790亿个英语单词标记,从而在跨语言任务上表现出卓越。这个模型具备与同样规模的英语模型竞争的实力,尽管其使用的英语数据量较少。这标志着阿拉伯语和英语之间的相互影响,为语言模型的未来发展开启了新的篇章。

Jais模型目前已被多个机构采用,包括阿联酋外交部、工业和先进技术部、卫生部、国家石油公司和阿提哈德航空公司。与此同时,Condor Galaxy是一个超级计算机网络,旨在缩短人工智能模型的训练时间,这将有助于进一步推动人工智能的发展。该网络的第一台超级计算机CG-1拥有强大的计算能力,将为Cerebras和G42提供云服务的系统提供支持。这一创新有望为中东地区和全球的人工智能研究和应用带来重大影响。

2023090402.jpg

G42 Cloud的首席执行官Alkaissi表示,他们与Cerebras的合作旨在应对医疗保健、能源和气候行动等紧迫挑战。他们共同的愿景是利用Condor Galaxy迅速构建全球最快的人工智能训练超级计算机,并打通这些计算机之间的互联。这个合作将结合Cerebras出色的计算能力和G42在多个行业中的人工智能专业知识。

作为一所专注于人工智能研究的研究生研究型大学,MBZUAI校长Eric Xing表示,创建一个高级别的阿拉伯语语言模型需要先进的人工智能研究,同时需要深入了解阿拉伯语、其多样性、传统以及该模型在社会中的重要性。通过他们的研究和与Inception以及其他地区和全球顶尖组织的合作,MBZUAI将继续推动高效、精确和有效的语言模型的发展。

Inception和MBZUAI表示,随着用户社区的增长,他们将不断扩展和改进Jais模型,并计划将其提供给广大用户,可在Hugging Face平台上进行下载。这一合作旨在为人工智能领域带来更多创新和进步,解决各种全球性挑战。

0
分享到:
没有账号? 忘记密码?