以下是关于知识库的相关内容:
大模型并非 100%准确,会产生幻觉,原因主要有两点:
训练大模型的数据有日期限制,询问超出日期限制的问题,大模型无法准确回答。 大模型的数据来源于互联网,公司内部私有数据大模型无法感知。因此,知识库的出现是为解决大模型数据准确性的问题。大模型可额外学习外接知识库中的知识,从而精准回复用户。典型应用如客服系统,公司将用户所有问题及答案记录在文档中,以知识库形式投喂给大模型,用户自然语言询问时,大模型能根据知识库内容给出更准确回答。
扣子的知识库功能提供简单易用方式存储和管理外部数据,让 Bot 与指定数据交互。上传数据到知识库后,扣子会自动将文档分割成内容片段存储,并通过向量搜索检索最相关内容回答用户问题。知识库由大到小可分为:
知识库:一整套领域知识,是 Bot 加载的最小单位。 单元:知识库的一部分,可上传的最小内容单位可以是一个.txt、.pdf、.csv 文件或一个网页。 分段:一个单元切分成多个分段,模型查询的最小单位。分段内容的完整度和准确性会影响模型回答问题的准确性。在商业化问答场景中,左侧有三处配置:AI 模型、提示词、知识库。模型、提示词、知识库三者可想象成:
大语言模型:是学习过无数本书、拥有无穷智慧的人,对公共知识、学识技能、日常聊天擅长,但在工作场景下,需要提示词。 提示词:告诉全知全能的人其角色和要专注的技能,使其变成所需“员工”。 知识库:相当于给“聪明”员工发放的工作手册,如规定见到老板娘过来吃饭要打三折,张梦飞过去吃饭要打骨折。