跳转至

AI之家

OpenAI的o1全方位SOTA在lmsys排行榜上登顶，其数学能力超越了Claude和谷歌的Gemini模型，而o1-mini则并列第一。

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

OpenAI的o1全方位SOTA在lmsys排行榜上登顶，其数学能力超越了Claude和谷歌的Gemini模型，而o1-mini则并列第一。

编辑日期：2024年09月20日

openai的o1全方位sota在lms

备受期待的最新模型 OpenAI o1，终于在 lmsys 竞技场的评测中揭晓了结果。不出所料，o1-preview 在各个领域均取得了绝对领先的成绩，超越了最新版的 GPT-4o，在数学、复杂提示和编码领域表现尤为突出。

尽管o1-mini的名字中有“mini”，但它与最新版的GPT-4o并列综合排名第二，在困难提示、编码和数学等领域也与o1-preview一样位列第一。

openai的o1全方位sota在lms

果然，O1 模型不负其在通用推理领域的“新王”之名。LMsys社区官方推特表示，这次测试结果收集了超过6,000名社区成员的投票，并将OpenAI此次取得的进展称为“令人难以置信的里程碑”。

openai的o1全方位sota在lms

仅仅参考排行榜的名次可能不足以说明问题，因此lmsys特意统计了总榜前25名模型的1v1胜率。

可以看到，o1-preview 在所有模型中的胜率均超过50%，相比之下，04-09版的GPT-4-Turbo胜率最高，达到了88%。

如果 o1-mini 与 o1-preview 对战，其胜率为 46%；而对阵 09-03 版的 GPT-4o 时，胜率为 48%。可以说，在这两种情况下，o1-mini 大体上与对手持平，但略逊一筹。

值得注意的是，尽管 Grok-2-mini 和 Claude 3.5 Sonnet 的排名都较为靠后，但 o1-preview 对这两个模型的胜率分别只有 58% 和 57%，远低于排名第四的 Gemini 1.5 Pro 的 69%。

openai的o1全方位sota在lms

如果查看细分领域的排行榜，特别是在数学/推理领域，效果更为惊人。o1-preview 和 o1-mini 不仅在数学排行榜上名列前茅，还展现出绝对的领先优势。

排在第三和第四位的是 Claude 3.5 Sonnet 和 Gemini 1.5 Pro，以及 08-08 版的 ChatGPT-4o，它们的平均得分都在 1275 左右，相差无几；而 o1-preview 和 o1-mini 则遥遥领先，得分接近 1360，直接碾压其他模型。

openai的o1全方位sota在lms

O1推理团队的领导者之一William Fedus看到这张图也非常高兴，他表示这张图「非常直观地展示了范式的转变」。

openai的o1全方位sota在lms

看来最新的O1模型在STEM学科和通用推理方面确实达到了新的高度，以实际评测结果回应了“AI遇冷”和“OpenAI碰壁”的质疑。

openai的o1全方位sota在lms

「那就继续期待OpenAI接下来的发布吧！」

注：这里的变化不大，因为原文已经是中文。主要是将「」号调整为标准的中文引用号，并去掉了空格以符合中文书写习惯。如果你有更具体的重写需求，请告诉我！

openai的o1全方位sota在lms

但当一些人满怀期待地展望未来时，另一些人却在担忧自己有限的智商和稀少的头发。

openai的o1全方位sota在lms

「模型已经做得这么好了，测试就不适合像我这样的笨人了。」

openai的o1全方位sota在lms

同时，也有人对 lmsys 排行榜的结果表示怀疑。

例如，众所周知，o1 模型的推理时间较长，因此其回答延迟也较高，与其他模型存在显著差异；此外，不同于各种基准测试的客观标准，lmsys 社区内完全是基于用户的主观评分，因此很难说其中是否存在「安慰剂效应」。

openai的o1全方位sota在lms

也有人对o1在编码排行榜上位居第一表示不服，认为尽管o1-mini非常适合项目规划，但在Cursor这类编码助手中，Claude模型的表现仍然是最好的。

openai的o1全方位sota在lms

排行榜的结果当然不是全部，O1模型能否继续赢得好评，同时保持其智能水平，还需要观察接下来的一段时间。

谈到o1模型的编码能力，你是否还记得，OpenAI在刚发布时提到的一个指标：如果将提交限制放宽到每个问题允许1万次提交，o1可以达到超过IOI金牌门槛的分数。

在模拟的 Codeforces 编程比赛中，按照相同的规则进行评估，o1-preview 版本能够击败 62% 的人类选手，而正式版 o1 的表现更佳，能够超越 89% 的对手。

专门微调过的 o1-ioi 模型，其表现优于93%的竞争对手。

openai的o1全方位sota在lms

此外，前不久有用户在实时的Codeforces比赛中使用了O1模型，成绩超过了99.8%的人类选手。

由于o1在编程竞赛领域表现出色，引起了AI社区的极大兴趣和好奇心，因此OpenAI决定公布o1模型提交的代码内容，包括全部6个问题的C++代码及其注释。

openai的o1全方位sota在lms

对于o1的出色表现，Alexander Wei自己也感到非常惊讶。

他本人九年前曾参加过IOI竞赛，但从未想到这么快就需与AI竞争。该模型展示出的推理过程复杂程度令人印象深刻。

openai的o1全方位sota在lms

博文表示，尽管 o1 模型距离人类的顶级表现仍有很大差距，但我们期待有朝一日能够实现这一目标。

这个发展轨迹让人联想到AlphaGo——从具备高水平到能够与人类顶尖高手平分秋色，最终以5-0彻底击败李世石。

OpenAI 旨在实现的可能是终极进化的 AlphaZero，即在编程能力上超越人类顶级高手的系统。

公布在此的代码存在以下六个问题：

openai的o1全方位sota在lms

有网友指出，其中最令人印象深刻的应该是象形文字（hieroglyphs）的问题，o1 模型在此问题上共获得了44分，在所有现场参赛者中位列第四。这表明该模型可能有能力破解一些人类无法解决的子任务。

前几天，一位目前在NASA工作的天体物理学博士尝试让o1复现其论文中的代码，结果令他大吃一惊——自己在读博期间花费一年时间写的代码，o1仅用了一个小时就完成了。

openai的o1全方位sota在lms

这还只是基础模型，如果再加上代码解释器、网络实时搜索等各种工具，效果想必会更加出色。

openai的o1全方位sota在lms

此外，Reddit上的网友还温馨提醒道：这仅仅是o1的预览版，大家可以满怀期待地等待正式版o1，它将在不到一个月后发布。

openai的o1全方位sota在lms

此外，这位网友还表示，O1 基本上沿用了 GPT-4 的架构；那么你可以想象，如果改换架构后的 GPT-5（也就是传说中的“猎户座”），其性能将达到何种高度。

请提供要重写的文本内容。

大家在看

图标描述

图标描述

微软AI大模型通识教程

AI大模型开发

AI大模型入门教程

图标描述

Python入门教程

图标描述

Python进阶教程

图标描述

Python小例子200道练习题

图标描述

Python练手项目

Python从零到一60题

Python从零在线练习题

Python爬虫教程...

NumPy入门教程

NumPy文章

NumPy练习题

Pandas入门

Pandas练习

数据可视化教程

Flask开发

Django开发

Python办公自动化，数据处理，文档生成，电子邮件管理

体验创新科技vivo-x100-ultra-携手-rokid-ar-眼镜将手机转化为立体望远镜3d-相机功能再进化

英特尔处理器频现故障，科技专家曝光制...

gpt4o-更容易越狱北航-南洋理工上万次测试给出详细分析

消息称因隐私问题苹果拒绝与meta合作将其ai聊天机器人带入ios18

在微软Windows 11中发现了国...

Page Views: Site Views: Visitors:

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析