甲骨易成为中国信通院大型模型基准测试体系中“方升”首批合作伙伴（甲骨易企查查）

为满足大规模模型产业化落地选型测试和能力监测需求，中国信通院于“2024年中国信通院ICT深度观察研究成果报告会”上发布大规模模型评测体系“方升”，旨在建立行业内大规模模型基准测试统一的“度量标准”，规范大规模模型产业发展。

甲骨易成为中国信通院“方升”大型模型基准测试的首批合作伙伴，携手共同创建“通用感知基准测试集”，并获得中国信通院“大型模型基准测试体系合作伙伴”证书。我们共同致力于加速建立一个适用于中文大型模型的全面、客观、统一、规范的基准测试体系。

中国信通院表示，“方升”系统能够有效解决大型模型评估规则的混乱以及与实际应用场景距离过大等紧迫问题。该系统从全面、客观、统一的角度对大型模型进行评估，涉及四个关键维度。为搭建“方升”测试体系，中国信通院创建了一个动态测试数据库，包含107个测试数据集，总测试数据量达到123万。此次评估活动由中国信通院与甲骨易等产业界多家机构联合推出，首次面向行业、通用、应用和安全领域提供了六个评测数据集，旨在促进中文大型模型更好地实现产业智能化应用，并加速大型模型与产业的融合。

随着巨型模型的快速发展，人们一直关注其带来的“幻觉”和虚假信息难以检测等问题，使得巨型模型在实际应用中受到了影响。甲骨易在积极布局全球智能语言服务生态的同时，将全球多语言本地化能力扩展到数据服务领域，正式成立甲骨易AI研究院（甲骨易AI Lab）。该研究院推出中文大模型评测体系LucyEval，作为全球首个发布基于中文多任务理解能力测试集的机构。随后，研究院再次领先发布中文大模型多学科生成能力评测，开创性地将大模型成熟度评测的维度从通识评测转向业务场景评测。通过深入评估中文大模型的各项能力，有助于提升其在全球竞争中的地位。

甲骨易成为中国信通院大模型基准测试体系“方升”首批合作伙伴