知识图谱是一种揭示实体之间关系的语义网络,可对现实世界的事物及其相互关系进行形式化描述。它于 2012 年 5 月 17 日由 Google 正式提出,旨在提高搜索引擎能力,增强用户搜索质量和体验,实现语义检索。
知识图谱的关键技术包括知识抽取、知识表示、知识融合、知识更新和知识推理。知识抽取通过自动化技术抽取可用知识单元,包括实体抽取、关系抽取和属性抽取。知识表示有属性图和三元组等方式。知识融合在同一框架下进行异构数据整合、消歧、加工、推理验证和更新,形成高质量知识库,包括实体对齐、知识加工、本体构建和质量评估等。知识更新不断迭代扩展现有知识,增加新知识。知识推理在已有知识库基础上挖掘隐含知识。
在 LLM 落地思考方面,实现某个 NLP 任务需要收集大量业务数据并进行人工标注,训练 bert 模型,再进行针对性优化,时长可能要一个月,且交付后较难进行意图新增和任务泛化,有时使用句式规则方式更好维护与更新。构建知识图谱虽可承载公司级、行业级知识并进行更新与可视化展示,但构建复杂,需与行业专家深度讨论,预见企业长远业务发展可能性制定 schema,稍有不慎就可能图谱与业务错位,且从建立到可用至少需半年周期。NLG 基本上还是拼接为主,有多少人工规则就有多少智能。而 LLM 横空出世后,对 NLP、NLG、KG 都有较大提升,因此这三类场景都可因效率和效果大幅提升而有更好、更多可能的落地方式。