对于学习新手来说,可以从以下几个维度了解知识库:
知识库的整体构成: 知识库是一整套领域知识,是 Bot 加载的最小单位。 单元是知识库的一部分,可上传的最小内容单位可以是一个.txt、.pdf、.csv 文件或一个网页。 分段是一个单元切分成多个分段,是模型查询的最小单位,分段内容的完整度和准确性会影响模型回答问题的准确性。 具体知识内容: 如关于 transformer 的知识,计划从算法 1(NLP 中的 transformer 网络结构)、算法 2(CV 中的 transformer 网络结构)、算法 3(多模态下的 transformer 网络结构)、训练(transformer 的分布式训练)、部署(transformer 的 tvm 量化与推理)这五个方面进行介绍。 常见的 LLM 基座模型里的 3 种 transformer 架构,包括 encoder-only、encoder-decoder 和 decoder-only。 与其他元素的关系: 在商业化问答场景中,模型、提示词、知识库三者相互配合。大语言模型像一个学习过无数知识的人,提示词是告知其角色和专注技能,使其成为所需“员工”,知识库则是给“员工”的工作手册。