跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

实测OpenAI最新模型O1:能解大学数理化问题,但在处理某些复杂情况时仍有困难。

编辑日期:2024年09月13日

Strawberry中的字母“r”也被数得一清二楚了。

OpenAI传说中的“草莓”终于正式上线了!

不仅能够处理更为复杂的推理任务,在数学、编程及其他科学领域也能解决更困难的问题。

实测OpenAI最新模型O1:能解大学数

OpenAI这次的“无预警发布”震撼了整个科技圈,O1更是被CEO奥特曼称为一种新范式的开始。

实测OpenAI最新模型O1:能解大学数

发布后,各路大神和网友们纷纷用各种问题来测试OpenAI O1的表现:

实测OpenAI最新模型O1:能解大学数

还有人进行了各种花样测试,结果被O1的强大推理能力所震撼。

问:你的回答中有多少个字? 答1:这句话有七个字。 答2:总共五个字。

实测OpenAI最新模型O1:能解大学数 实测OpenAI最新模型O1:能解大学数

不得不承认,尽管O1在推理能力上取得了显著进步,但在面对一些狡猾的提问时,还是落入了人类设下的陷阱。

实测OpenAI最新模型O1:能解大学数

当然,对于正常的问题,O1的表现依然非常出色。我们先来看看它的逻辑推理能力如何。

实测OpenAI最新模型O1:能解大学数

在思考这道题时,preview 和 mini 分别用时 21 秒和 14 秒,但从文本上看,mini 的思考内容反而更丰富。过程中出现了一些西里尔字母,但这对整体理解影响不大。

实测OpenAI最新模型O1:能解大学数

最终,两个模型都给出了正确答案——丙。值得一提的是,mini(右侧)的解答中还包括了一个修正过程。

实测OpenAI最新模型O1:能解大学数

接下来我们看看 o1 在大学数理化题目上的表现。

首先是一道考研数学真题,涉及的知识点包括曲面积分和高斯定理等:

实测OpenAI最新模型O1:能解大学数

我们分别看一下 preview 和 mini 的思考过程。可以看出,mini 的思考过程更像是 preview 的简化版,速度也更快。然而,preview 的思考过程中再次出现了乱码,这次是泰语。

实测OpenAI最新模型O1:能解大学数

实际上,preview 的解答过程比 mini 更详细,但不知为何使用了英文回答。最后的计算结果虽然化简方式不同,但数值上是相同的,并且答案也是正确的。

实测OpenAI最新模型O1:能解大学数

相比之下,4o 则是先偷懒后作弊(调用了代码解释器),结果最后的答案还是错误的。

以下是重写的文本:

实测OpenAI最新模型O1:能解大学数学 第二道数学题是关于概率的。

实测OpenAI最新模型O1:能解大学数学

这道题的解答依然使用了英语,步骤比mini版本更详细,当然答案也是正确的。

实测OpenAI最新模型O1:能解大学数学

对于4o题,前面的过程基本正确,但在最后一步求解时出现了错误,只给出了1这个答案,但这并不是本题的正确答案。

实测OpenAI最新模型O1:能解大学数学

在物理方面,选择了一道大学物理中的光学题:

实测OpenAI最新模型O1:能解大学数学

preview(左)和mini版本都给出了正确的解答,内容基本一致。

实测OpenAI最新模型O1:能解大学数学

化学题目是一道物理化学题,主要涉及电化学等内容。题目中将AgCl/Ag的标准电极电势作为已知条件一起输入给模型。

实测OpenAI最新模型O1:能解大学数学

preview(左)和mini版本的解题思路基本相同,计算步骤上只是在运算顺序上略有差异,但最终结果是正确的。

实测 OpenAI 最新模型 O1:解决大学数学问题

最后一项测试不再采用考试题,而是检验模型编写代码的能力。

所选题目的难度非常高,真人通过率仅为 14%。

解题示例

以下是两个不同模型(preview 和 mini)的解题思路:

实测OpenAI最新模型O1:能解大学数

从代码上看,两个模型的核心逻辑相似,但在具体实现上有细微差别。

实测OpenAI最新模型O1:能解大学数

两个模型的代码均通过了测试,并且内存消耗相近。mini 的代码运行时间更短(38 毫秒)。

实测OpenAI最新模型O1:能解大学数

O1 的编程能力不仅限于解题,还可以快速构建实用的应用程序。例如,知名 AI 配音工具 ElevenLabs 的设计部门负责人 Ammaar Reshi 利用 O1 结合 Cursor Composer,在不到 10 分钟内制作了一款 iOS 天气应用。

名场面再现

测试中发现,即使是大模型也难以答对的经典难题——比较小数大小。preview 和 mini 均未能正确回答。

甚至 preview 在思考过程中已经明确指出 9.8 比 9.11 大。

然而,preview 还是在思考过程中提到 9.8 和 9.11 可能是指日期,这可能是答错的另一个原因。

实测OpenAI最新模型O1:能解大学数

针对这个问题,专家谢赛宁也分享了他的测试结果,发现O1模型在解答过程中将9.8误认为重力常数,而9.11被视为一个“无明确意义”的数字。

实测OpenAI最新模型O1:能解大学数

因此,O1可能并不是不会解答,而是将问题想得过于复杂了。

为了进一步验证,我们将问题表述得更为具体,明确指出9.8和9.11都是数字。这样一来,模型就没有歧义地正确解答了问题。

实测OpenAI最新模型O1:能解大学数

这表明提示语的设计对模型的影响很大。

由于O1模型在内部采用了类似思维链的过程,其提示语的设计与普通版本有所不同。OpenAI官方也发布了一则指导建议:

实测OpenAI最新模型O1:能解大学数

回到我们的测试,在其他几个大型模型失败的情况下,O1展现出了显著的进步。

例如,在处理一串随机字母的任务时,O1能够准确计数。

实测OpenAI最新模型O1:能解大学数

此外,在经典的“反转诅咒”问题中(即知道A是B但不知道B是A),O1也能一次性正确回答出Mary Lee Pfeiffer(汤姆·克鲁斯的母亲)的儿子是谁。

实测OpenAI最新模型O1:能解大学数

关于此次发布的 o1,除了各项指标表现外,还有一些其他有趣的发现。例如,前特斯拉自动驾驶负责人、曾两次加入并离开 OpenAI 的 Andrej Karpathy 发现,当要求 o1-mini 证明黎曼猜想时,它会拒绝回答,显示出大型语言模型仍存在“偷懒”的问题。

实测 OpenAI 最新模型 O1:能解大学数

另外,有网友认为 mini 版本的表现优于 preview 版本,想询问是否有人了解其中的原因或有何见解。这一讨论也引起了奥特曼的关注,他回复道:“Yes I have one”。

实测 OpenAI 最新模型 O1:能解大学数

根据 OpenAI 内部员工 Kevin Lu 发布的一条推文,mini 版本的性价比确实高于 preview 版本。

从图表中可以看出,preview 版本无论是在性能上不如尚未发布的完整版 o1,还是在经济性方面都不及 mini 版本。

实测 OpenAI 最新模型 O1:能解大学数

值得一提的是,preview 版本存在消息数量限制,并且这一限制是每周重置的,在几轮测试后已接近用尽。

实测 OpenAI 最新模型 O1:能解大学数

参考链接: 1. https://x.com/rowancheung/status/1834300353619075494 2. https://x.com/karpathy/status/1834374965942255835 3. https://x.com/sama/status/1834381401380294685 4. https://x.com/_kevinlu/status/1834278160038592633

集齐三大顶级域名

实测OpenAI最新模型O1:能解大学数

网友:说改就改?

实测OpenAI最新模型O1:能解大学数

甚至出现了“Token文学”……

实测OpenAI最新模型O1:能解大学数

三兄弟都开始搞投资了

实测OpenAI最新模型O1:能解大学数

科技公司与版权方的较量

实测OpenAI最新模型O1:能解大学数

准确率仅有少量损失

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析