甲骨易成为中国信通院大型模型基准测试体系中“方升”首批合作伙伴(甲骨易企查查)

为满足大规模模型产业化落地选型测试和能力监测需求,中国信通院于“2024年中国信通院ICT深度观察研究成果报告会”上发布大规模模型评测体系“方升”,旨在建立行业内大规模模型基准测试统一的“度量标准”,规范大规模模型产业发展。

甲骨易成为中国信通院“方升”大型模型基准测试的首批合作伙伴,携手共同创建“通用感知基准测试集”,并获得中国信通院“大型模型基准测试体系合作伙伴”证书。我们共同致力于加速建立一个适用于中文大型模型的全面、客观、统一、规范的基准测试体系。

中国信通院表示,“方升”系统能够有效解决大型模型评估规则的混乱以及与实际应用场景距离过大等紧迫问题。该系统从全面、客观、统一的角度对大型模型进行评估,涉及四个关键维度。为搭建“方升”测试体系,中国信通院创建了一个动态测试数据库,包含107个测试数据集,总测试数据量达到123万。此次评估活动由中国信通院与甲骨易等产业界多家机构联合推出,首次面向行业、通用、应用和安全领域提供了六个评测数据集,旨在促进中文大型模型更好地实现产业智能化应用,并加速大型模型与产业的融合。

随着巨型模型的快速发展,人们一直关注其带来的“幻觉”和虚假信息难以检测等问题,使得巨型模型在实际应用中受到了影响。甲骨易在积极布局全球智能语言服务生态的同时,将全球多语言本地化能力扩展到数据服务领域,正式成立甲骨易AI研究院(甲骨易AI Lab)。该研究院推出中文大模型评测体系LucyEval,作为全球首个发布基于中文多任务理解能力测试集的机构。随后,研究院再次领先发布中文大模型多学科生成能力评测,开创性地将大模型成熟度评测的维度从通识评测转向业务场景评测。通过深入评估中文大模型的各项能力,有助于提升其在全球竞争中的地位。

甲骨易成为中国信通院大模型基准测试体系“方升”首批合作伙伴

  甲骨荣获中国信通院颁发的“大模型基准测试体系合作伙伴”证书

在推出LucyEval时,甲骨易曾强调:“我们共同关注的问题是如何迅速判断机器是否能准确理解人类的知识和语言。甲骨易AI研究院希望通过LucyEval对模型各方面的能力进行客观测试,发现模型存在的不足,并协助设计师和工程师更准确地调整和训练模型,推动大型模型不断迈向更智能的未来。”

甲骨易一直致力于以高质量数据加速模型在应用场景中的智能化进程,将人工智能关键技术视为企业数字化转型的核心驱动力。甲骨易相信通过与中国信通院联合发布的幻觉基准测试集,可以更好地帮助中文大模型对抗幻觉,实现真正的人机共生。

0
分享到:
没有账号? 忘记密码?