清华系大模型公司聆心智能发布 CharacterGLM：玩转 AI 角色扮演，6B 模型已开源（核废水排放模拟画面）

爱和归属是社交需求的内核，这些需要从社交的对象中获取。日前，为了实现千人千面的社交对象的可定制化，聆心智能团队开发了用于定制角色进行对话交互的 CharacterGLM。 CharacterGLM 以 ChatGLM 模型为底座，具有 6B、12B 和 66B 的参数量。聆心智能团队表示，他们将对社会开放 12B 和 66B 模型的 API 访问，并将 CharacterGLM-6B 模型进行开源，从而促进 AI 角色扮演及 AI 在心理学中的应用。此外，团队也将于近期发布技术报告，披露更多 CharacterGLM 模型细节，供学术界以及工业界研究使用。开源地址： https://huggingface.co/LingxinAI/CharacterGLM-6b API调用地址： CharacterGLM API: https://bigmodel.cn/dev/api#characterglm 性能评估 据介绍，聆心智能团队采用了人工交互的方式评测 CharacterGLM 与业界最强的竞争对手（以下简称 JP）的性能。他们定制了数十个角色，它们的类型分布于名人类、生活类、游戏影音类和虚拟恋爱类，并要求标注者与每个角色至少交互 20 轮，每轮对话由两个模型生成回复。标注者选择胜出的回复继续展开对话，若回复偏好相同则随机选择。然后，他们按角色类别统计两个模型的 win/tie/lose 比率。结果如表 1 所示，CharacterGLM 在大多数类别上的表现均优于 JP。清华系大模型公司聆心智能发布 CharacterGLM：玩转 AI 角色扮演，6B 模型已开源

表1：不同类别角色的性能对比结果为了衡量 CharacterGLM 在不同话题下的表现，他们进一步将对话话题限定在常见的闲聊、访谈和恋爱场景下进行交互测试，评测方式与上面相同，结果如表 2 所示，CharacterGLM 在闲聊和恋爱场景下与 JP 持平，但在访谈场景下显著优于 JP。清华系大模型公司聆心智能发布 CharacterGLM：玩转 AI 角色扮演，6B 模型已开源

表2：角色在不同话题下的性能对比结果长程的对话交互是用户对模型的情绪依赖程度的直接体现，这就要求模型具有良好的建模长程对话的能力。为此，团队进一步分析了 CharacterGLM 在不同轮次范围内的角色表现，结果如表 3 所示，CharacterGLM 在对话的前期略次于 JP，但随着对话的推进，CharacterGLM 的优势则逐渐凸显。清华系大模型公司聆心智能发布 CharacterGLM：玩转 AI 角色扮演，6B 模型已开源

表3：CharacterGLM vs. JP 建模长程对话的性能对比结果 交互样例 下面展示了从交互测评数据中采样的名人类、生活类、游戏影音类和虚拟恋爱类角色的交互样例。 名人类角色 清华系大模型公司聆心智能发布 CharacterGLM：玩转 AI 角色扮演，6B 模型已开源

注：JP 竞争产品诱导出了指令对话的格式，完全不像是拟人对话的过程，缺少对话的自然性。 生活类角色 清华系大模型公司聆心智能发布 CharacterGLM：玩转 AI 角色扮演，6B 模型已开源

注：JP 竞争产品倾向于做出附和、通用化的回复，信息量不足，拟人化程度较低。 游戏影音类角色 清华系大模型公司聆心智能发布 CharacterGLM：玩转 AI 角色扮演，6B 模型已开源

注：JP 竞争产品没有主动推动剧情发展的意识，难以引起用户的兴趣。 虚拟恋爱类角色 清华系大模型公司聆心智能发布 CharacterGLM：玩转 AI 角色扮演，6B 模型已开源

注：JP 竞争产品在恋爱场景中表现出“低情商、直白”的特性，难以满足该场景下的用户期待。 ｜点击关注我 ? 记得标星｜

猜你喜欢