复旦大学高考数学大模型评测显示：阿里千问、讯飞星火力压GPT-4o。（复旦数学系事件）

6月12日消息，近日，复旦大学NLP（自然语言处理）实验室LLMEVAL团队公布了2024年高考数学大模型评测的结果。

在这次评测中，阿里千问和讯飞星火分别获得了2024年高考数学新I卷的第一名和第二名，以及高考数学新II卷的第二名和第一名，两份考卷的评测中，GPT-4o均列第三名。

复旦大学高考数学大模型评测显示：阿里千问、讯飞星火力压GPT-4o。_图1

复旦大学自然语言处理（NLP）团队认为，全新发布的高考试题具有极高的创新性和保密性，是用于评估大型模型性能的绝佳评测集合。在新的Ⅰ卷中，阿里巴巴的千问系统和讯飞公司的星火系统在14道数学客观题上的准确率超过了70%，远远领先于GPT-4o的57%。字节豆包、智谱清言、百川等大型模型紧随其后，准确率超过了50%。而百度的文心一言、腾讯的元宝系统和Kimi等大型模型的准确率相对较低。

而在新Ⅱ卷的评测中，讯飞星火、阿里千问、GPT-4o的准确率均超过60%，其他大模型的差距较小，除百川、DeepSeek和海螺之外，准确率均在50%以上。

复旦大学高考数学大模型评测显示：阿里千问、讯飞星火力压GPT-4o。_图2