OpenAI的o1全方位SOTA在lmsys排行榜上登顶,其数学能力超越了Claude和谷歌的Gemini模型,而o1-mini则并列第一。
编辑日期:2024年09月20日
备受期待的最新模型 OpenAI o1,终于在 lmsys 竞技场的评测中揭晓了结果。不出所料,o1-preview 在各个领域均取得了绝对领先的成绩,超越了最新版的 GPT-4o,在数学、复杂提示和编码领域表现尤为突出。
尽管o1-mini的名字中有“mini”,但它与最新版的GPT-4o并列综合排名第二,在困难提示、编码和数学等领域也与o1-preview一样位列第一。
果然,O1 模型不负其在通用推理领域的“新王”之名。LMsys社区官方推特表示,这次测试结果收集了超过6,000名社区成员的投票,并将OpenAI此次取得的进展称为“令人难以置信的里程碑”。
仅仅参考排行榜的名次可能不足以说明问题,因此lmsys特意统计了总榜前25名模型的1v1胜率。
可以看到,o1-preview 在所有模型中的胜率均超过50%,相比之下,04-09版的GPT-4-Turbo胜率最高,达到了88%。
如果 o1-mini 与 o1-preview 对战,其胜率为 46%;而对阵 09-03 版的 GPT-4o 时,胜率为 48%。可以说,在这两种情况下,o1-mini 大体上与对手持平,但略逊一筹。
值得注意的是,尽管 Grok-2-mini 和 Claude 3.5 Sonnet 的排名都较为靠后,但 o1-preview 对这两个模型的胜率分别只有 58% 和 57%,远低于排名第四的 Gemini 1.5 Pro 的 69%。
如果查看细分领域的排行榜,特别是在数学/推理领域,效果更为惊人。o1-preview 和 o1-mini 不仅在数学排行榜上名列前茅,还展现出绝对的领先优势。
排在第三和第四位的是 Claude 3.5 Sonnet 和 Gemini 1.5 Pro,以及 08-08 版的 ChatGPT-4o,它们的平均得分都在 1275 左右,相差无几;而 o1-preview 和 o1-mini 则遥遥领先,得分接近 1360,直接碾压其他模型。
O1推理团队的领导者之一William Fedus看到这张图也非常高兴,他表示这张图「非常直观地展示了范式的转变」。
看来最新的O1模型在STEM学科和通用推理方面确实达到了新的高度,以实际评测结果回应了“AI遇冷”和“OpenAI碰壁”的质疑。
「那就继续期待OpenAI接下来的发布吧!」
注:这里的变化不大,因为原文已经是中文。主要是将「」号调整为标准的中文引用号,并去掉了空格以符合中文书写习惯。如果你有更具体的重写需求,请告诉我!
但当一些人满怀期待地展望未来时,另一些人却在担忧自己有限的智商和稀少的头发。
「模型已经做得这么好了,测试就不适合像我这样的笨人了。」
同时,也有人对 lmsys 排行榜的结果表示怀疑。
例如,众所周知,o1 模型的推理时间较长,因此其回答延迟也较高,与其他模型存在显著差异;此外,不同于各种基准测试的客观标准,lmsys 社区内完全是基于用户的主观评分,因此很难说其中是否存在「安慰剂效应」。
也有人对o1在编码排行榜上位居第一表示不服,认为尽管o1-mini非常适合项目规划,但在Cursor这类编码助手中,Claude模型的表现仍然是最好的。
排行榜的结果当然不是全部,O1模型能否继续赢得好评,同时保持其智能水平,还需要观察接下来的一段时间。
谈到o1模型的编码能力,你是否还记得,OpenAI在刚发布时提到的一个指标:如果将提交限制放宽到每个问题允许1万次提交,o1可以达到超过IOI金牌门槛的分数。
在模拟的 Codeforces 编程比赛中,按照相同的规则进行评估,o1-preview 版本能够击败 62% 的人类选手,而正式版 o1 的表现更佳,能够超越 89% 的对手。
专门微调过的 o1-ioi 模型,其表现优于93%的竞争对手。
此外,前不久有用户在实时的Codeforces比赛中使用了O1模型,成绩超过了99.8%的人类选手。
由于o1在编程竞赛领域表现出色,引起了AI社区的极大兴趣和好奇心,因此OpenAI决定公布o1模型提交的代码内容,包括全部6个问题的C++代码及其注释。
对于o1的出色表现,Alexander Wei自己也感到非常惊讶。
他本人九年前曾参加过IOI竞赛,但从未想到这么快就需与AI竞争。该模型展示出的推理过程复杂程度令人印象深刻。
博文表示,尽管 o1 模型距离人类的顶级表现仍有很大差距,但我们期待有朝一日能够实现这一目标。
这个发展轨迹让人联想到AlphaGo——从具备高水平到能够与人类顶尖高手平分秋色,最终以5-0彻底击败李世石。
OpenAI 旨在实现的可能是终极进化的 AlphaZero,即在编程能力上超越人类顶级高手的系统。
公布在此的代码存在以下六个问题:
有网友指出,其中最令人印象深刻的应该是象形文字(hieroglyphs)的问题,o1 模型在此问题上共获得了44分,在所有现场参赛者中位列第四。这表明该模型可能有能力破解一些人类无法解决的子任务。
前几天,一位目前在NASA工作的天体物理学博士尝试让o1复现其论文中的代码,结果令他大吃一惊——自己在读博期间花费一年时间写的代码,o1仅用了一个小时就完成了。
这还只是基础模型,如果再加上代码解释器、网络实时搜索等各种工具,效果想必会更加出色。
此外,Reddit上的网友还温馨提醒道:这仅仅是o1的预览版,大家可以满怀期待地等待正式版o1,它将在不到一个月后发布。
此外,这位网友还表示,O1 基本上沿用了 GPT-4 的架构;那么你可以想象,如果改换架构后的 GPT-5(也就是传说中的“猎户座”),其性能将达到何种高度。
请提供要重写的文本内容。