DeepMind新突破:AI 攻破国际数学奥林匹克,斩获银牌

具有高级数学推理能力的通用人工智能(AGI)有望在科学和技术领域开辟新的前沿。当前的 AI 系统由于推理技能和训练数据的局限性,在解决一般数学问题时仍存在困难。

就在昨天,Google DeepMind 的 AlphaProof 和 AlphaGeometry 团队推出了一个基于强化学习的形式数学推理新系统 AlphaProof,以及几何解题系统的改进版本 AlphaGeometry 2。

这两个系统共同解决了今年国际数学奥林匹克竞赛(IMO)六个问题中的四个,首次达到银牌获得者的水平。

解决复杂数学问题的 AI 性能取得突破

近年来,IMO 年度竞赛被广泛认为是机器学习的一大挑战,也是衡量 AI 系统高级数学推理能力的理想基准。

今年,Google DeepMind 将其联合 AI 系统应用于 IMO 组织者提供的问题。他们的解决方案根据 IMO 的评分规则进行了评分,评分者包括著名的数学家、IMO 金牌得主和菲尔兹奖得主 Timothy Gowers 教授,以及两次 IMO 金牌得主、2024 年 IMO 问题选择委员会主席 Joseph Myers 博士。

IMO 金牌得主和菲尔兹奖得主 Timothy Gowers 教授称:“这个程序能提出如此非显而易见的结构,非常令人印象深刻,远远超出了我认为的最先进水平。”

首先,问题被手动翻译成形式数学语言,以便该系统理解。在正式竞赛中,学生有两个 4.5 小时的时段提交答案。该系统在几分钟内解决了一个问题,而解决其他问题则花了最多三天时间。

AlphaProof 通过确定答案并证明其正确性,解决了两个代数问题和一个数论问题。这包括今年 IMO 中只有五个参赛者解决的最难问题。AlphaGeometry 2 证明了几何问题,而两个组合数学问题仍未解决。

每个问题可以赢得七分,总分最高为 42 分。该系统最终得分 28 分,在解决每个问题上都获得了满分——相当于银牌类别的最高端。今年,金牌的门槛从 29 分开始,在正式比赛的 609 名参赛者中有 58 人达到了这个分数。

没有账号? 忘记密码?