学习大模型，从哪里开始

学习大模型可以从以下几个方面入手：

什么是大模型：通俗来讲，大模型就是输入大量语料，让计算机获得类似人类的“思考”能力，能够进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”这件事来类比大模型的训练、使用过程：

找学校：训练大模型需要大量的计算，因此 GPU 更合适，只有购买得起大量 GPU 的才有资本训练自己的大模型。确定教材：大模型需要的数据量特别多，几千亿序列（Token）的输入基本是标配。找老师：即用合适的算法讲述“书本”中的内容，让大模型能够更好理解 Token 之间的关系。就业指导：学完知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导。搬砖：就业指导完成后，就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）。

关于 Token：在 LLM 中，Token 被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token 是原始文本数据与 LLM 可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表。数字化的好处是便于计算机处理。为了让计算机理解 Token 之间的联系，还需要把 Token 表示成稠密矩阵向量，这个过程称之为 embedding。常见的算法有基于统计的 Word2Vec、GloVe，基于深度网络的 CNN、RNN/LSTM，基于神经网络的 BERT、Doc2Vec 等。以 Transform 为代表的大模型采用自注意力（Self-attention）机制来学习不同 token 之间的依赖关系，生成高质量 embedding。

大模型的整体架构：从整体分层的角度来看，目前大模型整体架构大致可以分为以下几层。

猜你喜欢