甲骨易成为中国信通院大模型基准测试体系“方升”首批合作伙伴（甲骨文的易字怎么写）

为了满足大规模模型产业化落地的选型测试和能力监测需求，中国信通院在“2024中国信通院ICT深度观察研究成果报告会”上发布了大规模模型评测体系“方升”。该体系的目标是建立业界统一的大规模模型基准测试标准，规范大规模模型产业的发展。

甲骨易是中国信通院“方升”大模型基准测试首批合作伙伴，共同合作建立“通用幻觉基准测试集”，并获得中国信通院颁发的“大模型基准测试体系合作伙伴”证书。我们致力于加快推进中文大模型的全面、客观、统一、规范的基准测试体系。

随着大型模型的迅速发展，人们越来越关注其带来的“幻觉”和虚假信息难以检测等问题，这些问题使得大型模型的应用受到了影响。为了在全球智能语言服务生态中深入布局，甲骨易成立了甲骨易AI研究院（甲骨易AI Lab），并推出了中文大型模型评测体系LucyEval。该评测体系首次发布了基于中文多任务理解能力的测试集，随后又首次发布了中文大型模型多学科生成能力的评测。这一创新将大型模型的成熟度评测从通识评测转向了业务场景评测，通过深化对中文大型模型能力的评测，帮助提升其在全球的竞争力。

中国信通院授予甲骨易“大模型基准测试体系合作伙伴”证书

在发布LucyEval时，甲骨易表示：“我们共同关注的问题是如何快速判断机器是否能准确理解人类的知识和语言。甲骨易AI研究院希望通过LucyEval对模型各方面能力进行客观测试，以发现模型的不足之处，并帮助设计者和工程师更精确地调整和训练模型，从而推动大模型朝着更智能的未来迈进。”

甲骨易始终坚持以高质量数据加快模型在应用场景下的智能化进程，以人工智能关键技术作为企业数字化转型的核心驱动力。甲骨易相信通过与中国信通院联合发布的幻觉基准测试集，能够帮助中文大模型更好地应对幻觉，实现真正的人机共生。