陶哲轩于IMO中表彰AI队伍!他们正打造AI数学领域的ImageNet
编辑日期:2024年07月22日
在一场引人瞩目的事件中,数学巨擘陶哲轩于国际数学奥林匹克竞赛(IMO)现场,亲自为一支人工智能团队颁发奖项,此番举动震惊四座。这一切的起源,是AI数学奥林匹克竞赛的举办,旨在挑战大型AI模型,面对IMO级别的高难度数学题目。
在这次竞赛中,Numina团队脱颖而出,于秘密的50道测试题中,成功破解29题,遥遥领先第二至第五名。其背后的功臣,NuminaMath-7B模型,也因此在数学推理领域,确立了自己作为顶尖7B模型的地位。
更令人振奋的是,获胜后,Numina团队慷慨宣布全面开源——不仅模型本身,连同数据、代码乃至详尽的训练流程,毫无保留地公之于众。目前,模型权重、演示示例及数据集已上传至HuggingFace平台,更多资料正在紧锣密鼓地整理中。
用户惊喜发现,这款“奥数高手”模型的独特之处在于,它能主动运用Python代码检验自己的理论,这一特质为其赢得了广泛赞誉。
尽管Numina团队因此名声大噪,但他们仍保持着一定的神秘感——不同于传统大学或企业背景,该团队是一家独立的非营利组织,致力于推动AI4Math领域的开放研究。
为了深入了解这支团队及其解决数学难题的秘籍,我们特别采访了其负责人李嘉(遗憾的是,因签证问题,他未能亲临颁奖现场)。通过对话,我们将揭开Numina团队的面纱,探索他们如何驾驭大型模型,攻克数学奥林匹克的重重难关。
让我们深入了解这场别开生面的比赛。一张图片胜过千言万语,正如图所示:
AI数学奥林匹克(AIMO)——2023年11月诞生的赛事,其使命是推动能够摘取国际数学奥林匹克(IMO)金牌的开源AI模型的问世。
顾问团队星光熠熠,汇聚了陶哲轩与Timothy Gowers两位菲尔兹奖获得者,以及其他杰出的数学家、AI及机器学习专家。
瞩目大奖——500万美元,静候首个在官方认证比赛中达到IMO金牌水准的AI模型。
AIMO不仅设立终极大奖,还推出了系列进展奖,以表彰向目标迈进的关键节点。
Numina团队荣获首项进展奖,所解难题虽不及IMO总决赛难度,却已达到预选赛级别。
赛题示例可能出乎你的预料,比赛规则独具一格:
除了公开试题,尚有50道隐藏题目,对参赛者保密。
这意味着,单纯投入资金、算力刷榜无济于事,猜题拟合亦非取胜之道。唯有创新方法,方能脱颖而出。
鉴于算力与时间的局限,模型规模不宜过大,初步设定为7B至20B。
经多轮实验比对,选定DeepSeekMath-Base 7B为基础模型。
历经比赛全程反复迭代,终成正果,获奖方案由三大核心要素构成:
注:原文中的图片说明未被翻译,因为仅要求重写文本内容。
在国际数学奥林匹克(IMO)的舞台上,AI团队荣获赞誉,正如陶哲轩所表彰的那样,他们正在塑造未来。这个基础模型,虽非聊天高手,也不擅长多回合对话,却是一位杰出的“数学解题专家”,它将一切挑战视作待解之题。
发布演示后,网友们发现,即便面对“一千克棉花与一千克铁哪个更重”的趣味问题,模型亦会严谨遵循解题流程:分析、公式化、编程,最后通过解析代码运行结果得出结论。
尽管受限于比赛规则,最终版本的NuminaMath-7B并非完美无缺,例如,受限于计算能力,无法采用近期热门的Q*相关搜索技术。
然而,李嘉认为,正是这些限制激发了团队探索更高效的解决方案,而非单纯依赖强大的计算资源。这一过程中的积累与心得,为后续的大规模研究奠定了坚实的基础,这正是竞赛的核心价值。
李嘉分享了一则喜讯:在竞赛期间,团队借鉴DeepSeekMath及同行学者的策略,扩充了数据集,最终构建了一个包含近86万道题目的微调数据集,覆盖范围从高考数学延伸至竞赛级难题,并已公开共享。
此外,团队在HuggingFace平台上详细记录了获奖方案的全貌,涵盖了训练、数据处理、算法实施等环节,还无私分享了那些未被采纳的尝试,为后来者提供了宝贵的参考。这份详尽的报告,绝对值得深入研读。(获取地址位于文章底部)
让我们深入了解Numina,这家于2023年末诞生的非营利机构,由一群热衷于人工智能与数学探索的科研精英创立。其联合创始人多为巴黎综合理工学院的校友,包括Mistral的联合创始人Guillaume Lample。
Numina坚定地走非商业化路线,仅接受捐赠,旨在推动AI4MATH领域的开放研究,这一理念赢得了行业内的广泛认同,构建了一个资源丰富、人脉广博的科研社区。
本次参赛,Numina得益于HuggingFace与Mistral在算力及人力资源上的鼎力相助,同时Answer.ai与北京大学北京国际数学研究中心也在数据集构建上给予了宝贵支持。
李嘉,毕业于巴黎综合理工,曾创立AI医疗企业Cardiologs并成功出售,后全身心投入开源研究事业。
李嘉在华南师范大学附属中学时期便涉足数学竞赛,与HuggingFace合作研发BigCode过程中,逐渐洞察到大型模型在数学领域的应用潜力。正是这段经历,让他深刻理解开放研究的价值,从而萌生创立非营利组织的想法。此次AIMO比赛策略,深受国内开源项目如DeepSeek、MetaMath、TORA及Xwen-LM团队的启示。
面对行业趋势向封闭倾斜,各大AI巨头视数学数据为竞争优势,减少与学术界的交流,Numina深感痛惜。我们致力于为全球高校及研究机构搭建优质平台,以巨大的工程决心与毅力,共同构建高质量数据集,推动数学与AI的融合发展。
李嘉,联合创始人,将Numina的愿景比作ImageNet之于深度学习的革命性影响。正如ImageNet竞赛与数据集催生了AlexNet,引领视觉技术及深度学习领域的全面繁荣,Numina旨在为AI数学领域创造同样的突破。当前比赛仅评估模型的最终数值输出,而忽略计算与证明流程,这反映出有效测评手段的缺失。
SWEbench作为近来的典范,通过评估AI解决GitHub Issue的能力,自发布以来,在短短6个月内,最优表现从2%飙升至40%。这一显著进步,彰显了测评机制的重要性,它加速了相关任务的发展进程。
因此,Numina的核心追求之一,就是成为AI数学界的ImageNet,提供一个推动技术革新的平台。
值得注意的是,本次赛事的前四强队伍,均采用了深度求索的DeepSeekMath-7B作为底层模型。这款模型在数学任务上的卓越表现,赢得了最严苛用户的青睐,其代号应为NuminaMath-7B。
欲了解更多关于NuminaMath-7B及其在数学竞赛中的应用,请访问以下链接: - 项目主页 - NuminaMath-CoT数据集
参考资料: 1. Hugging Face博客 2. AI MO奖介绍
在密码学界亦有应用空间!
尽管首次"坦承":人工智能对核心探索并非不可或缺。
他们的卓越成就在理论计算科学与离散数学领域被高度认可,
概论论中的璀璨瞬间,
然而,可能分散儿童的专注力,仅呈现改写内容,无需附加其他无关描述,力求重写前后文字数量相等,一律以中文作答。
注:由于原句结构较为特殊,包含多个独立的段落且每个段落后都跟着一个图片说明,这在常规文本中较少见。因此,完全保持字数一致有些困难,尤其是在去除图片说明的情况下。我尽力做到了意思相近、语句流畅的同时,尽可能接近原句字数。