新智元报道
编辑:好困 桃子 【新智元导读】最强中文版LLaMA-2来了!15小时训练,仅需数千元算力,性能碾压同级中文汉化模型,开源可商用。 LLaMA-2相较于LLaMA-1,引入了更多且高质量的语料,实现了显著的性能提升,全面允许商用,进一步激发了开源社区的繁荣,拓展了大型模型的应用想象空间。 然而,从头预训练大模型的成本相当高,被戏称「5000万美元才能入局」,这使得许多企业和开发者望而却步。那么,如何以更低的成本构建自己的大型模型呢? 作为大模型降本增效的领导者,Colossal-AI团队充分利用LLaMA-2的基础能力,采用高效的训练方法,仅使用约8.5B token数据、15小时、数千元的训练成本,成功构建了性能卓越的中文LLaMA-2,在多个评测榜单性能优越。 相较于原始LLaMA-2,在成功提升中文能力的基础上,进一步提升其英文能力,性能可与开源社区同规模预训练SOTA模型媲美。 秉承Colossal-AI团队一贯的开源原则,完全开源全套训练流程、代码及权重,无商用限制,并提供了一个完整的评估体系框架ColossalEval,以实现低成本的可复现性。 此外,相关方案还可迁移应用到任意垂类领域和从头预训练大模型的低成本构建。性能表现




词表扩充与模型初始化
LLaMA-2原始词表并未针对中文做特定优化,所包含的中文词有限,导致在中文语料上理解力不足。因此,首先对LLaMA-2进行了词表的扩充。 Colossal-AI团队发现: 词表的扩充不仅可以有效提升字符串序列编码的效率,并且使得编码序列包含更多的有效信息,进而在篇章级别编码和理解上,有更大的帮助。 然而,由于增量预训练数据量较少,扩充较多的单词反而会导致某些单词或组合无实际意义,在增量预训练数据集上难以充分学习,影响最终效果。 过大的词表会导致embedding相关参数增加,从而影响训练效率。 因此,经过反复实验,同时考虑了训练的质量与训练的效率,Colossal-AI团队最终确定将词表从LLaMA-2原有的32000扩充至69104。 有了扩充好的词表,下一步就是基于原有的LLaMA-2初始化新词表的 embedding。为了更好的迁移LLaMA-2原有的能力,实现从原有LLaMA-2到中文LLaMA-2能力的快速迁移,Colossal-AI团队利用原有的LLaMA-2的权重,对新的embedding进行均值初始化。
如此一来,既保证了新初始化的模型在初始状态下,英文能力不受影响,又可以尽可能的无缝迁移英文能力到中文上。数据构建
为了更大程度的降低训练的成本,高质量的数据在其中起着关键作用,尤其是对于增量预训练,对于数据的质量,分布都有着极高的要求。 为了更好的筛选高质量的数据,Colossal-AI团队构建了完整的数据清洗体系与工具包,以便筛选更为高质量的数据用于增量预训练。训练策略
多阶段训练 在训练方面,针对增量预训练的特点,Colossal-AI团队设计了多阶段,层次化的增量预训练方案,将训练的流程划分为三个阶段:
评估体系
为了更好的评估模型的性能,Colossal-AI团队搭建了完整的评估体系——ColossalEval,希望通过多维度对大语言模型进行评估。 流程框架代码完全开源,不仅支持结果复现,也支持用户根据自己不同的应用场景自定义数据集与评估方式。评估框架特点总结如下:
涵盖针对于大语言模型知识储备能力评估的常见数据集如MMLU,CMMLU等。针对于单选题这样的形式,除了常见的比较ABCD概率高低的计算方式,增加更为全面的计算方式,如绝对匹配,单选困惑度等,以求更加全面的衡量模型对于知识的掌握程度。
支持针对多选题的评估和长文本评估。
支持针对于不同应用场景的评估方式,如多轮对话,角色扮演,信息抽取,内容生成等。用户可根据自己的需求,有选择性的评估模型不同方面的能力,并支持自定义prompt与评估方式的扩展。
构建通用大模型到垂类大模型迁移的桥梁 由Colossal-AI团队的经验来看,基于LLaMA-2构建中文版模型,可基本分为以下流程:

系统优化
上述Colossal-LLaMA-2的亮眼表现和成本优势,构建在低成本AI大模型开发系统Colossal-AI之上。 Colossal-AI基于PyTorch,可通过高效多维并行、异构内存等,降低AI大模型训练/微调/推理的开发与应用成本,提升模型任务表现,降低GPU需求等。 仅一年多时间便已在GitHub开源社区收获GitHub Star 3万多颗,在大模型开发工具与社区细分赛道排名世界第一,已与世界500强在内的多家知名厂商联合开发/优化千亿/百亿参数预训练大模型或打造垂类模型。Colossal-AI云平台
为了进一步提高AI大模型开发和部署效率,Colossal-AI已进一步升级为Colossal-AI云平台,以低代码/无代码的方式供用户在云端低成本进行大模型训练、微调和部署,快速将各种模型接入到个性化的应用中。
platform.luchentech.com
Colossal-AI云平台文档:https://docs.platform.colossalai.com/
Colossal-AI开源地址:
https://github.com/hpcaitech/ColossalAI 参考资料: https://www.hpc-ai.tech/blog/one-half-day-of-training-using-a-few-hundred-dollars-yields-similar-results-to-mainstream-large-models-open-source-and-commercial-free-domain-specific-LLM-solution
