Llama 是由 Meta 推出的一系列语言模型。
Llama 一共有 4 个模型尺寸,其出发点包括:只使用公开的数据集,以保证在数据使用上的公平性;用更多的数据训练更小的网络,例如用 1T 的 token 训练 7B 和 13B 的模型,用 1.4T 的 token 训练 33B 和 65B 模型,这参考了 Chinchilla 的结论。
在网络结构方面,Llama 采用 decoder-only 的方式,与 GPT3 相比有以下不同:使用了 SentencePiece 实现的 PBE 编码方式;使用了 PreNorm,这样收敛更稳定,同时采用 RMSNorm(均方根归一化),即 LayerNorm 里面没有减均值项和 beta 项;使用 SwiGLU(swish 激活+GeLU 调制),由于 SwiGLU 引入了额外的参数矩阵,原始 FFN 需要相应减小。此外,Llama 还使用了苏剑林老师提出的 RoPE 旋转位置编码,其核心思想是通过绝对位置编码的方式实现相对位置编码。
Ollama 则是一个开源的框架,旨在简化在本地运行大型语言模型(LLM)的过程。它是一个轻量级、可扩展的框架,提供了简单的 API 来创建、运行和管理模型,还有一个预构建模型库,进一步降低了使用门槛。不仅适用于自然语言处理研究和产品开发,还适合初学者或非技术人员使用,特别是那些希望在本地与大型语言模型交互的用户。通过简单的安装指令和一条命令即可在本地运行大模型,极大地推动了大型语言模型的发展和应用。
总的来说,Llama 作为语言模型具有独特的设计和特点,而 Ollama 作为框架为本地运行大模型提供了便利。