大模型的原理(da模型)

大模型的原理如下:

大模型是通过输入大量语料,让计算机获得类似人类的“思考”能力,从而能够理解自然语言,并进行文本生成、推理问答、对话、文档摘要等工作。其训练和使用过程可以类比为上学参加工作: 找学校:训练大模型需要大量计算,GPU 更合适,只有有资本购买大量 GPU 的才有能力训练。 确定教材:大模型需要大量的数据量,几千亿序列(Token)的输入是基本标配。 找老师:采用合适的算法讲述数据内容,让大模型更好理解 Token 之间的关系。 就业指导:为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 搬砖:就业指导完成后,进行如翻译、问答等工作,在大模型里称之为推导(infer)。 大模型的本质是一个基于语言的概率模型,它返回其认为概率最大的内容。如果直接问大模型而不提供 Prompt,相当于大模型随机给出答案。有了 Prompt,相当于给了一个模板,包括对模型的要求、输入和输出的限制,大模型在这个限制下得到概率最大的答案。 大模型与当下智能语音技能的 NLU 存在本质差别。语音技能 NLU 是通过一系列规则、分词策略等训练而成,其运作逻辑规律可观测,具有 if-else 式的逻辑性。而大模型凭借海量数据在向量空间中学习知识的关联性形成,其运作逻辑难以观测,脱离了 if-else 的层面。

0
分享到:
没有账号? 忘记密码?