复旦大学高考数学大模型评测显示:阿里千问、讯飞星火力压GPT-4o。(复旦数学系事件)

6月12日消息,近日,复旦大学NLP(自然语言处理)实验室LLMEVAL团队公布了2024年高考数学大模型评测的结果。

在这次评测中,阿里千问和讯飞星火分别获得了2024年高考数学新I卷的第一名和第二名,以及高考数学新II卷的第二名和第一名,两份考卷的评测中,GPT-4o均列第三名。

复旦大学高考数学大模型评测显示:阿里千问、讯飞星火力压GPT-4o。_图1

复旦大学自然语言处理(NLP)团队认为,全新发布的高考试题具有极高的创新性和保密性,是用于评估大型模型性能的绝佳评测集合。在新的Ⅰ卷中,阿里巴巴的千问系统和讯飞公司的星火系统在14道数学客观题上的准确率超过了70%,远远领先于GPT-4o的57%。字节豆包智谱清言、百川等大型模型紧随其后,准确率超过了50%。而百度的文心一言、腾讯的元宝系统和Kimi等大型模型的准确率相对较低。

而在新Ⅱ卷的评测中,讯飞星火、阿里千问、GPT-4o的准确率均超过60%,其他大模型的差距较小,除百川、DeepSeek和海螺之外,准确率均在50%以上。

复旦大学高考数学大模型评测显示:阿里千问、讯飞星火力压GPT-4o。_图2

数学能力是GPT-4o一直以来引以为傲的能力模块,OpenAI在5月14日的发布会上推出大语言模型GPT-4o时,曾重点演示其强大的数学计算能力。

在现场演示中,GPT-4o利用其实时的图像识别和语音能力进行在线教学。从评测结果可以看出,阿里千问和讯飞星火对数学问题的深入理解和分析能力已经超过GPT-4o,使其在高考数学试题的解答上具有更高的准确率。有网友表示,做数学题毕竟还是中国人的特长。

以阿里千问和讯飞星火为代表,国产人工智能大模型在数学领域展现出了出色的能力,这为未来人工智能技术在教育领域的应用提供了有力的支持。

复旦大学高考数学大模型评测显示:阿里千问、讯飞星火力压GPT-4o。_图3

0
分享到:
没有账号? 忘记密码?