实测OpenAI最新模型O1:能解大学数理化问题,但在处理某些复杂情况时仍有困难。
编辑日期:2024年09月13日
Strawberry中的字母“r”也被数得一清二楚了。
OpenAI传说中的“草莓”终于正式上线了!
不仅能够处理更为复杂的推理任务,在数学、编程及其他科学领域也能解决更困难的问题。
OpenAI这次的“无预警发布”震撼了整个科技圈,O1更是被CEO奥特曼称为一种新范式的开始。
发布后,各路大神和网友们纷纷用各种问题来测试OpenAI O1的表现:
还有人进行了各种花样测试,结果被O1的强大推理能力所震撼。
问:你的回答中有多少个字? 答1:这句话有七个字。 答2:总共五个字。
不得不承认,尽管O1在推理能力上取得了显著进步,但在面对一些狡猾的提问时,还是落入了人类设下的陷阱。
当然,对于正常的问题,O1的表现依然非常出色。我们先来看看它的逻辑推理能力如何。
在思考这道题时,preview 和 mini 分别用时 21 秒和 14 秒,但从文本上看,mini 的思考内容反而更丰富。过程中出现了一些西里尔字母,但这对整体理解影响不大。
最终,两个模型都给出了正确答案——丙。值得一提的是,mini(右侧)的解答中还包括了一个修正过程。
接下来我们看看 o1 在大学数理化题目上的表现。
首先是一道考研数学真题,涉及的知识点包括曲面积分和高斯定理等:
我们分别看一下 preview 和 mini 的思考过程。可以看出,mini 的思考过程更像是 preview 的简化版,速度也更快。然而,preview 的思考过程中再次出现了乱码,这次是泰语。
实际上,preview 的解答过程比 mini 更详细,但不知为何使用了英文回答。最后的计算结果虽然化简方式不同,但数值上是相同的,并且答案也是正确的。
相比之下,4o 则是先偷懒后作弊(调用了代码解释器),结果最后的答案还是错误的。
以下是重写的文本:
第二道数学题是关于概率的。
这道题的解答依然使用了英语,步骤比mini版本更详细,当然答案也是正确的。
对于4o题,前面的过程基本正确,但在最后一步求解时出现了错误,只给出了1这个答案,但这并不是本题的正确答案。
在物理方面,选择了一道大学物理中的光学题:
preview(左)和mini版本都给出了正确的解答,内容基本一致。
化学题目是一道物理化学题,主要涉及电化学等内容。题目中将AgCl/Ag的标准电极电势作为已知条件一起输入给模型。
preview(左)和mini版本的解题思路基本相同,计算步骤上只是在运算顺序上略有差异,但最终结果是正确的。
实测 OpenAI 最新模型 O1:解决大学数学问题
最后一项测试不再采用考试题,而是检验模型编写代码的能力。
所选题目的难度非常高,真人通过率仅为 14%。
解题示例
以下是两个不同模型(preview 和 mini)的解题思路:
从代码上看,两个模型的核心逻辑相似,但在具体实现上有细微差别。
两个模型的代码均通过了测试,并且内存消耗相近。mini 的代码运行时间更短(38 毫秒)。
O1 的编程能力不仅限于解题,还可以快速构建实用的应用程序。例如,知名 AI 配音工具 ElevenLabs 的设计部门负责人 Ammaar Reshi 利用 O1 结合 Cursor Composer,在不到 10 分钟内制作了一款 iOS 天气应用。
名场面再现
测试中发现,即使是大模型也难以答对的经典难题——比较小数大小。preview 和 mini 均未能正确回答。
甚至 preview 在思考过程中已经明确指出 9.8 比 9.11 大。
然而,preview 还是在思考过程中提到 9.8 和 9.11 可能是指日期,这可能是答错的另一个原因。
针对这个问题,专家谢赛宁也分享了他的测试结果,发现O1模型在解答过程中将9.8误认为重力常数,而9.11被视为一个“无明确意义”的数字。
因此,O1可能并不是不会解答,而是将问题想得过于复杂了。
为了进一步验证,我们将问题表述得更为具体,明确指出9.8和9.11都是数字。这样一来,模型就没有歧义地正确解答了问题。
这表明提示语的设计对模型的影响很大。
由于O1模型在内部采用了类似思维链的过程,其提示语的设计与普通版本有所不同。OpenAI官方也发布了一则指导建议:
回到我们的测试,在其他几个大型模型失败的情况下,O1展现出了显著的进步。
例如,在处理一串随机字母的任务时,O1能够准确计数。
此外,在经典的“反转诅咒”问题中(即知道A是B但不知道B是A),O1也能一次性正确回答出Mary Lee Pfeiffer(汤姆·克鲁斯的母亲)的儿子是谁。
关于此次发布的 o1,除了各项指标表现外,还有一些其他有趣的发现。例如,前特斯拉自动驾驶负责人、曾两次加入并离开 OpenAI 的 Andrej Karpathy 发现,当要求 o1-mini 证明黎曼猜想时,它会拒绝回答,显示出大型语言模型仍存在“偷懒”的问题。
另外,有网友认为 mini 版本的表现优于 preview 版本,想询问是否有人了解其中的原因或有何见解。这一讨论也引起了奥特曼的关注,他回复道:“Yes I have one”。
根据 OpenAI 内部员工 Kevin Lu 发布的一条推文,mini 版本的性价比确实高于 preview 版本。
从图表中可以看出,preview 版本无论是在性能上不如尚未发布的完整版 o1,还是在经济性方面都不及 mini 版本。
值得一提的是,preview 版本存在消息数量限制,并且这一限制是每周重置的,在几轮测试后已接近用尽。
参考链接: 1. https://x.com/rowancheung/status/1834300353619075494 2. https://x.com/karpathy/status/1834374965942255835 3. https://x.com/sama/status/1834381401380294685 4. https://x.com/_kevinlu/status/1834278160038592633
集齐三大顶级域名
网友:说改就改?
甚至出现了“Token文学”……
三兄弟都开始搞投资了
科技公司与版权方的较量
准确率仅有少量损失