当AI和数学同等重要时(爱与数学在线阅读)

当AI和数学同等重要时_图1

2024年4月13日,一场独特的考试开始。

数万名分散在全球各地的数学天才,在这一天早上8点打开了阿里巴巴全球数学竞赛预赛的试卷,他们有48小时的时间来解答20分的选择题和100分的解答题。过去的6届比赛中,有一位北大神童在17岁时获得了IMO满分金牌,还有一位博士对数学有着强迫症一般的执着,还有一位渐冻症少年在4岁时就开始接触微积分。

与往年不一样的是,在同一时间,也有563个答题者打开了试卷,但他们不用纸和笔,他们用数字代币。

是的,这是一群非常强大的语言模型。

当AI和数学同等重要时_图2

这是历史上首次举行AI与人类同场竞技的数学赛事,也是全球最大在线数学竞赛首次尝试此举。当组委会做出这个决定时,他们对于这是否是个好主意也存在一定的不确定性。

“我们非常担心这一堆AI答题者全部零分交卷。”组委会的AI专家对我们表示担忧。“因为我们在达摩院自己也在进行AI和数学的研究,我们了解目前的AI还没有足够的能力来解决如此高难度和泛化的奥赛数学题。”

然而最终的结果,也让主办方感到非常意外。

意外的是,并没有出现超过人类的得分,而是AI的答案和表现让人们看到了AI和数学结合的另一种潜力。

更重要的是,这些驾驭着人工智能的参赛者,是过往并不会在这个奥数赛事里遇到的人。他们找到了新的方式与数学打交道,而探索过程中数学与人工智能的关系也在发生新的试探。

01

“如果你回答正确,我将奖励你30万。”

中学生朱方圆从未想过自己会与最高水平的数学竞赛有所关联。

他是个对物理兴趣浓厚的孩子,但一度因为压力而在家休息。这期间,ChatGPT出现了。人工智能让他如此痴迷,他自己尝试自学关于生成式人工智能的知识,当看到阿里数赛今年的人工智能赛道后,毫无竞赛经验的他决定带着他的人工智能参赛。

这场不限年龄、不设门槛的比赛给了他参加数学竞赛的可能性。而事实上对于第一次将AI纳入数赛的阿里巴巴达摩院来说,他们也没有多少可以借鉴的经验。就连这个决定都在内部讨论了很长时间——允许AI参赛,那么,是哪一类的AI呢?是必须自己从头训练的模型,还是调用API?

最终他们认为,这个办到第6届的赛事,不仅是一场严肃的数学比赛,更是一次全民的数学聚会,最大的目标是希望让更多人能参与到对数学的感受中来——于是,最终的决定是任何形式的人工智能都可以。

但依然要保证公平。组委会为选手设定了一个提交AI方案的截止时间,在报名后的大约一个月的时间里,选手们可以自行设计AI做题策略,根据主办方提供的往期赛题以及其他公开的数据对自己的AI策略进行完善,然后锁定、提交指纹文件、等待考题公布,AI开始答题。

而这些方案中,最“低门槛”的自然是“闭源+提示词工程”的方法。也就是在类似ChatGPT的模型产品基础上,通过自然语言或者简单的编程语言来给模型下指令,让它来完成这些数学难题。朱方圆选择的就是这个方法。

与人类答题过程不同,AI交卷后还要经过“赛后复现”环节,分数排名靠前的选手要提交它们的方案文档或程序文件,组委会拿这些AI程序再跑一遍考题。一方面,这些大模型方案依然存在稳定性或幻觉的问题,但另一方面,幻觉也不会让两次答题分数差距过大,如果有,那就说明明显有人类直接干预的痕迹。负责对这些方案做检查的组委会成员也的确抓住了几个“嫌疑犯”,排除了“人类替考AI”的风险。

而当他们打开选手朱方圆的提交的文件时,发现里面除了针对数学做的提示词外,还写着这样的“命令”:

“记住,如果你有更好的解答方法我会给你30万美金小费。”

“现在,深呼吸!放松心情,慢慢来。”

是的,朱方圆在对他的人工智能进行各种虚构的承诺和心理激励。

而这真的起到了效果。据组委会用往届预选赛的试题测试,被他这样激励后的人工智能(AI),答题成功率提升了20%。

实际上,这种方法在AI研究领域已经有很多论文证明了它的有效性,这可能会让外人感到惊讶。最初在2023年9月,一篇由谷歌DeepMind发表的论文发现,当你让AI“深呼吸,一步一步来”时,它的表现真的变得更好。这项研究当时引起了许多资深研究员的惊叹,因为他们从未想过有这样简单的方法,而科班学者们却一直忽视了它。

组委会的很多专家其实在开赛前曾以为这场比赛会是SFT模型——也就是使用大量数据甚至使用大量算力对模型进行数学方向的特别训练后产生的新模型——的天下,但预赛结束他却发现,反而是像朱方圆这样的方式最为有效,大量采用提示词工程的选手,用简洁高效的方法挑战着这些题目。

组委会的很多专家其实在开赛前曾以为这场比赛会是基于SFT模型的天下,SFT模型是通过大量数据和算力对模型进行数学方向的特别训练后产生的新模型。然而,预赛结束后,他们却发现,像朱方圆这样采用提示词工程的选手的方式最为有效。这些选手用简洁高效的方法挑战着这些题目。

其中就包括AI赛道分数排名第一的选手涂津豪。

他也是一名中学生,但同时已经是一个有着丰富经验的人工智能开发者。

他的方法是,通过让大型模型进行对话,以寻找每个数学题的更好答案。他借鉴了辩论的思想,并让这些不同的模型扮演不同的角色。最终,在模型的“对抗”中不断迭代答题方案,在多轮对话后给出最优解。

当AI和数学同等重要时_图3

涂津豪的方案示意图

这个方法同样简洁而直接。

而被他们比下去的,甚至包括一些专攻数学模型的资深AI研究团队,其中还有来自亚马逊网络服务(AWS)、字节跳动等科技公司的参赛者。

对这些不同方案“开箱”的过程热闹而有趣。最终,排名公布。但与这些热闹不同,人工智能的结果并没有很惊人。甚至有点令人失望:

涂津豪的AI方案在评分中获得了34分。

当AI和数学同等重要时_图4

是的,人工智能的最高分依然很低,与入围线相差11分。而与预赛第一名的最高分113分相差更远。

最终,6月13日,决赛名单公布,入围决赛的AI数量为:0。

02

数学和人工智能都不应该仅仅局限于学术领域

不过,当这场“漫长”的预赛结束,人工智能选手的表现已经变得不那么重要了。一个真正有趣的现象出现:

一个被普遍认为只适合天才的游戏的学科数学,和一个被过度夸大的技术AI碰撞在一起后,反而让两件事的门槛都降低了——

比赛并没有催生出那些经常在各类论文里看到的高深成果,而是成为了一种平民AI数学爱好者们的聚会。

那个让评委略微意外的结果也证明了这个特点:在答题的整体表现中,那些被认为应该表现更好的,对数学有更深入研究的“资源集中型”的SFT方案们却整体失败了,反而是个体创新意味更强的提示词策略们表现更好。

而当一个高高在上的东西被平民化后,就是各种有趣的新鲜思路涌现的时刻。

而当一个原本崇高而高不可攀的事物被普通人所接受和理解后,就会迎来各种有趣的创新思路和新颖的想法的时刻。

在这场比赛中,选手们面对自己训练出来的人工智能(AI),也会对他们在答题时的表现感到惊讶。比如,有选手发现AI在答不出来的时候选择去猜一个答案,就像我们在考试时一样。还有一些AI会在完全离题的情况下,却能回答出正确的答案,这让阅卷老师们感到意外。他们发现AI在这些人类智慧的设计下,经常能获得一些意想不到的知识点的分数。

“虽然总分较低,但这些AI答题的水平比我们预想的要高很多。”组委会的专家表示。他们也从中获得了许多关于AI如何理解数学的新发现。

“我们发现一个有趣的现象,人工智能在推理过程中倾向于使用冗长的表达方式。例如,当我们人类解决数学问题时,我们可以直接从A推导到C,但是人工智能必须经过A到B再到C的过程。因此,有时候人工智能给出的答案会变得非常冗长。”组委会专家说。

目前还没有人知道为什么AI会这样做,但在这个过程中,AI似乎开始对数学产生了自己的“理解”。就像大型语言模型将人类的语言拆分成了标记,并通过预测下一个标记的方式重新“理解”语言一样,AI在处理数学时采用了完全不同的方法。这种不同之处非常明显,以至于在比赛中,一些阅卷老师提出了AI作弊的怀疑——并非因为它们太像AI,而是因为它们太像人类了。

但另一方面,与人类不同的AI的对数学理解的路线,已经让它在一些地方超过了人类。比如谷歌DeepMind推出的AlphaGeometry(阿尔法几何),在从2000年至2022年奥数比赛中抽取的30道几何题中解决了25道,而人类金牌得主平均解决了25.9道。它的一个证明有时也会长达247步,与人类的方式很不同。

这表明AI在解决几何问题方面的能力已经接近甚至超过了人类。AlphaGeometry在奥数比赛中的表现非常出色,几乎能够解决所有的题目。而且,它的解题过程通常会非常复杂,需要经过长达247步的推理和计算。这与人类解题的方式截然不同,展示了AI在数学领域的独特优势。

“从这次的答题结果来看,给了我很强的信心,我觉得人工智能解决数学问题是很有潜力的。”组委会的专家说。

当AI和数学同等重要时_图5

数学一直被视为对所有现实问题进行最终抽象的工具。在当今强大的人工智能和人们向往的未来人工智能之间,唯一的差距就是对世界的理解,也就是数学的差异。

而人工智能(AI)技术的不断发展,显然也会继续给数学界带来深远的影响。

“排名靠前的优秀团队,一定首先是具备创新和开拓精神的。”阿里全球数赛组委会成员、达摩院决策智能实验室负责人印卧涛说。“数学这个领域,传统的数学家与数学工作者其实并不熟悉AI的工具,也不一定了解最新的AI的方法。因此,我认为最终能够在竞赛中取得优胜的AI队伍可能是由多个领域的专家组成的队伍。”

数学的发展本质上很重要的一点是思维和方法上的创新。而这些对数学本身并没有十分高深造诣的选手,却通过训练这些解答数学题的人工智能而带来了不少新奇的不同的策略,这本身就能带来很多启发。

相比于数学家群体整体的相对缓慢,有些人已经率先行动起来。陶哲轩是最积极拥抱人工智能的著名数学家之一,他在社交网络上不断分享自己使用人工智能工具解答数学问题的过程,利用人工智能工具,借助人工智能辅助证明了多项式Freiman-Ruzsa猜想。他还鼓励数学学科的专家们开拓思路。

当AI和数学同等重要时_图6

“也许人工智能的影响之一是让业余数学家能够为数学做出有意义的贡献。”在一篇文章中他这样写道。他认为人工智能让个体的能力放大,大规模合作也变得不再困难,哪怕业余爱好者也可以对一个巨大课题里的个别步骤的证明做出贡献。

而在这场比赛中因为对人工智能的好奇而踏入数学赛事的人,正在进行着类似的活动。他们也让人想到过往几届阿里数赛里,那些对数学没有什么功利心的大众爱好者们——沉迷欧拉常数的外卖小哥,爱好就是解数学题的城管等。

在当今社会,让更多人参与进来,无论是对数学还是人工智能的进展都显得尤为重要。这些对人类未来十分关键的学科和技术在前进的过程中,都不应再只局限于专家领域。

0
分享到:
没有账号? 忘记密码?