在与知识库对话中,通常会使用以下语言模型和相关技术:
在一些实例中,会使用诸如 qwen 语言模型来优化问题并添加接近的检索词。 常见的大语言模型如阿里千问模型也可应用于与知识库的交互。 在处理问题时,会通过嵌入模型(如 Word2Vec、GloVe、BERT)将问题文本转化为向量,以用于后续的检索和处理。 像 ChatGLM 是一个开源的、支持中英双语的对话语言模型,底座是 GLM 语言模型;Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。此外,还有一些相关的概念和技术:
Prompt 是一段用于指导机器学习模型生成特定输出的文本或语句。 LangChain 是一个开源 Python 库,旨在支持使用大型语言模型和外部资源开发应用程序。 Embedding 是将任意文本映射到固定维度的向量空间中,使相似语义的文本在空间中的向量位置接近,常用于相似性的文本搜索。