跳转至

AI之家

实测OpenAI最新模型O1：能解大学数理化问题，但在处理某些复杂情况时仍有困难。

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

实测OpenAI最新模型O1：能解大学数理化问题，但在处理某些复杂情况时仍有困难。

编辑日期：2024年09月13日

Strawberry中的字母“r”也被数得一清二楚了。

OpenAI传说中的“草莓”终于正式上线了！

不仅能够处理更为复杂的推理任务，在数学、编程及其他科学领域也能解决更困难的问题。

实测OpenAI最新模型O1：能解大学数

OpenAI这次的“无预警发布”震撼了整个科技圈，O1更是被CEO奥特曼称为一种新范式的开始。

实测OpenAI最新模型O1：能解大学数

发布后，各路大神和网友们纷纷用各种问题来测试OpenAI O1的表现：

实测OpenAI最新模型O1：能解大学数

还有人进行了各种花样测试，结果被O1的强大推理能力所震撼。

问：你的回答中有多少个字？答1：这句话有七个字。答2：总共五个字。

实测OpenAI最新模型O1：能解大学数

不得不承认，尽管O1在推理能力上取得了显著进步，但在面对一些狡猾的提问时，还是落入了人类设下的陷阱。

实测OpenAI最新模型O1：能解大学数

当然，对于正常的问题，O1的表现依然非常出色。我们先来看看它的逻辑推理能力如何。

实测OpenAI最新模型O1：能解大学数

在思考这道题时，preview 和 mini 分别用时 21 秒和 14 秒，但从文本上看，mini 的思考内容反而更丰富。过程中出现了一些西里尔字母，但这对整体理解影响不大。

实测OpenAI最新模型O1：能解大学数

最终，两个模型都给出了正确答案——丙。值得一提的是，mini（右侧）的解答中还包括了一个修正过程。

实测OpenAI最新模型O1：能解大学数

接下来我们看看 o1 在大学数理化题目上的表现。

首先是一道考研数学真题，涉及的知识点包括曲面积分和高斯定理等：

实测OpenAI最新模型O1：能解大学数

我们分别看一下 preview 和 mini 的思考过程。可以看出，mini 的思考过程更像是 preview 的简化版，速度也更快。然而，preview 的思考过程中再次出现了乱码，这次是泰语。

实测OpenAI最新模型O1：能解大学数

实际上，preview 的解答过程比 mini 更详细，但不知为何使用了英文回答。最后的计算结果虽然化简方式不同，但数值上是相同的，并且答案也是正确的。

实测OpenAI最新模型O1：能解大学数

相比之下，4o 则是先偷懒后作弊（调用了代码解释器），结果最后的答案还是错误的。

以下是重写的文本：

实测OpenAI最新模型O1：能解大学数学第二道数学题是关于概率的。

实测OpenAI最新模型O1：能解大学数学

这道题的解答依然使用了英语，步骤比mini版本更详细，当然答案也是正确的。

实测OpenAI最新模型O1：能解大学数学

对于4o题，前面的过程基本正确，但在最后一步求解时出现了错误，只给出了1这个答案，但这并不是本题的正确答案。

实测OpenAI最新模型O1：能解大学数学

在物理方面，选择了一道大学物理中的光学题：

实测OpenAI最新模型O1：能解大学数学

preview（左）和mini版本都给出了正确的解答，内容基本一致。

实测OpenAI最新模型O1：能解大学数学

化学题目是一道物理化学题，主要涉及电化学等内容。题目中将AgCl/Ag的标准电极电势作为已知条件一起输入给模型。

实测OpenAI最新模型O1：能解大学数学

preview（左）和mini版本的解题思路基本相同，计算步骤上只是在运算顺序上略有差异，但最终结果是正确的。

实测 OpenAI 最新模型 O1：解决大学数学问题

最后一项测试不再采用考试题，而是检验模型编写代码的能力。

所选题目的难度非常高，真人通过率仅为 14%。

解题示例

以下是两个不同模型（preview 和 mini）的解题思路：

实测OpenAI最新模型O1：能解大学数

从代码上看，两个模型的核心逻辑相似，但在具体实现上有细微差别。

实测OpenAI最新模型O1：能解大学数

两个模型的代码均通过了测试，并且内存消耗相近。mini 的代码运行时间更短（38 毫秒）。

实测OpenAI最新模型O1：能解大学数

O1 的编程能力不仅限于解题，还可以快速构建实用的应用程序。例如，知名 AI 配音工具 ElevenLabs 的设计部门负责人 Ammaar Reshi 利用 O1 结合 Cursor Composer，在不到 10 分钟内制作了一款 iOS 天气应用。

名场面再现

测试中发现，即使是大模型也难以答对的经典难题——比较小数大小。preview 和 mini 均未能正确回答。

甚至 preview 在思考过程中已经明确指出 9.8 比 9.11 大。

然而，preview 还是在思考过程中提到 9.8 和 9.11 可能是指日期，这可能是答错的另一个原因。

实测OpenAI最新模型O1：能解大学数

针对这个问题，专家谢赛宁也分享了他的测试结果，发现O1模型在解答过程中将9.8误认为重力常数，而9.11被视为一个“无明确意义”的数字。

实测OpenAI最新模型O1：能解大学数

因此，O1可能并不是不会解答，而是将问题想得过于复杂了。

为了进一步验证，我们将问题表述得更为具体，明确指出9.8和9.11都是数字。这样一来，模型就没有歧义地正确解答了问题。

实测OpenAI最新模型O1：能解大学数

这表明提示语的设计对模型的影响很大。

由于O1模型在内部采用了类似思维链的过程，其提示语的设计与普通版本有所不同。OpenAI官方也发布了一则指导建议：

实测OpenAI最新模型O1：能解大学数

回到我们的测试，在其他几个大型模型失败的情况下，O1展现出了显著的进步。

例如，在处理一串随机字母的任务时，O1能够准确计数。

实测OpenAI最新模型O1：能解大学数

此外，在经典的“反转诅咒”问题中（即知道A是B但不知道B是A），O1也能一次性正确回答出Mary Lee Pfeiffer（汤姆·克鲁斯的母亲）的儿子是谁。

实测OpenAI最新模型O1：能解大学数

关于此次发布的 o1，除了各项指标表现外，还有一些其他有趣的发现。例如，前特斯拉自动驾驶负责人、曾两次加入并离开 OpenAI 的 Andrej Karpathy 发现，当要求 o1-mini 证明黎曼猜想时，它会拒绝回答，显示出大型语言模型仍存在“偷懒”的问题。

实测 OpenAI 最新模型 O1：能解大学数

另外，有网友认为 mini 版本的表现优于 preview 版本，想询问是否有人了解其中的原因或有何见解。这一讨论也引起了奥特曼的关注，他回复道：“Yes I have one”。

实测 OpenAI 最新模型 O1：能解大学数

根据 OpenAI 内部员工 Kevin Lu 发布的一条推文，mini 版本的性价比确实高于 preview 版本。

从图表中可以看出，preview 版本无论是在性能上不如尚未发布的完整版 o1，还是在经济性方面都不及 mini 版本。

实测 OpenAI 最新模型 O1：能解大学数

值得一提的是，preview 版本存在消息数量限制，并且这一限制是每周重置的，在几轮测试后已接近用尽。

实测 OpenAI 最新模型 O1：能解大学数

参考链接： 1. https://x.com/rowancheung/status/1834300353619075494 2. https://x.com/karpathy/status/1834374965942255835 3. https://x.com/sama/status/1834381401380294685 4. https://x.com/_kevinlu/status/1834278160038592633

集齐三大顶级域名

实测OpenAI最新模型O1：能解大学数

网友：说改就改？

实测OpenAI最新模型O1：能解大学数

甚至出现了“Token文学”……

实测OpenAI最新模型O1：能解大学数

三兄弟都开始搞投资了

实测OpenAI最新模型O1：能解大学数

科技公司与版权方的较量

实测OpenAI最新模型O1：能解大学数

准确率仅有少量损失

大家在看

图标描述

图标描述

微软AI大模型通识教程

AI大模型开发

AI大模型入门教程

图标描述

Python入门教程

图标描述

Python进阶教程

图标描述

Python小例子200道练习题

图标描述

Python练手项目

Python从零到一60题

Python从零在线练习题

Python爬虫教程...

NumPy入门教程

NumPy文章

NumPy练习题

Pandas入门

Pandas练习

数据可视化教程

Flask开发

Django开发

Python办公自动化，数据处理，文档生成，电子邮件管理

ai创作的惊悚体操视频中肢体翻飞宛如魔术利库恩评论称这些视频生成模型对物理学一无所知只是单纯地输出重构的画面

商汤科技推出了首款可操控的人物视频生成大型模型vimi能够仅凭一张照片就能制作出长达1分钟的人物动态视频

techinsights未来五年ai芯片将消耗全球超15电力产生超10亿吨碳排放

根据词语使用模式来判断日立开发出了能...

anthropic因涉嫌使用盗版书籍...

Page Views: Site Views: Visitors:

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析