O1 模型的完整思维链成为 OpenAI 的头号禁忌,问得太多可能会被封号。
编辑日期:2024年09月14日
只要尝试几次,OpenAI 就会给你发邮件威胁撤销你的使用权限。
大模型新范式o1问世还不到24小时,许多用户就反馈收到了这封警告邮件,引发了广泛的不满。
有人反馈说,只要提示词中包含“reasoning trace”(推理轨迹)、“show your chain of thought”(展示你的思维过程)等关键词,就会收到警告。
即使完全不使用关键词,而是通过其他方式诱导模型绕过限制,也会被检测到。
也有人声称自己确实被封号了一周。
这些用户都在试图让o1说出他完整的内部思考过程,即全部原始的推理令牌。
目前,大家在ChatGPT界面通过展开按钮所看到的,只是原始思维过程的一个摘要。
实际上,在发布O1时,OpenAI 就给出了隐藏模型完整思维过程的理由。
注:原文中的“o1”可能是指某个特定的产品或版本,保留了原文的表述。如果上下文明确指的是OpenAI的某项发布,则可以替换为更具体的名称。同时,“给出理由”表示在文中他们解释了为何要这样做。
总结一下:OpenAI 需要在内部监控模型的思维过程,因此无法在这些原始 tokens 中添加安全限制,也不方便让用户查看。
然而,这个理由并非所有人都认同。
有人指出,O1的思维过程是其他模型最好的训练数据,因此OpenAI不想让这些宝贵的数据被其他公司获取。
也有人认为这说明了o1实际上并没有什么核心竞争力,一旦其思维过程被曝光,就很容易被他人复制。
这是在让我们盲目相信AI的答案,而不必做任何解释吗?
关于o1模型背后的技术原理,这次透露的信息很少,有效的信息几乎只有“使用了强化学习”。
总之,OpenAI 变得越来越不开放了。
目前可以确定的是,o1 就是 OpenAI 一直炒作的“草莓”,或者说,它采用了“草莓”所代表的方法。
他可以算是下一代模型GPT-5吗,还是只是GPT-4的一个变种?
越来越多的人开始怀疑,这仅仅是基于GPT-4所做的工程调整。
据知名爆料账号Flowers(原名Flowers from the future)透露,OpenAI的员工内部将o1称为“具备推理能力的4o”。
并且他声称许多OpenAI员工默默地对此条爆料点了赞,上面的截图也正是来自OpenAI的员工。
但前不久马斯克对推特进行了改版,现在除了发帖人之外,其他人无法看到谁给哪些内容点了赞,因此目前无法证实这一消息。
在最近举行的OpenAI开发者账号“有问必答”(Ask Me Anything)活动中,Flowers也进行了提问。
OpenAI 的员工在这里回答了许多问题,但回避了这个获得大量点赞、排名靠前的问题。
甚至阿尔特曼本人最近再次充当谜语人,暗示“草莓”阶段已经结束,而下一个代号为“猎户座”(Orion)的新模型即将推出。
此前有消息称,“猎户座”是OpenAI的下一代旗舰模型,该模型是由“草莓”(即o1)生成的合成数据进行训练的。
而猎户座正是阿尔特曼所说的“冬季星座”的代表之一。
说到已经发布的 o1,另一种针对它的批评是“不符合科研规范”。
例如,没有引用之前关于推理时间计算的相关工作,同时也缺乏与其他公司最先进模型的比较。
针对前一点,有人指出OpenAI已经不再只是一个研究实验室,而应该被看作是一家商业公司。
不过对于后一点,既然API已经发布,是否与其他前沿模型进行比较就不再由你决定了,许多第三方基准测试已经陆续产生了结果。
在 Keras 之父举办的 100 万美金 AGI 奖项比赛中,o1-preview 和 o1-mini 两个版本在公开测试集上的表现均超过了自家的 GPT-4o。
但是,o1-preview 仅与隔壁的 Claude 3.5-Sonnet 打成了平手。
在o1重点宣传的代码能力方面,开源结对编程工具aider团队进行了测试,但o1系列并没有表现出显著的优势。
在整个代码重写任务中,o1-preview获得了79.7分,而Claude-3.5-Sonnet获得了75.2分,o1领先4.5分。
但对于更实用的代码编辑任务,o1-preview的表现反而比Claude-3.5-Sonnet差,存在2.2分的差距。
另外,aider团队提醒,如果目前想用o1系列替代Claude进行编程,成本会高出许多。
与OpenAI有合作关系的“AI程序员”Devin团队,已经提前获得了o1访问资格。
注:o1应该是特定的术语或代号,如果在上下文中应该被引出或解释,但在这里由于缺乏上下文信息,直接保留原样。
在他们的测试中,由o1系列驱动的Devin基础版本相比GPT-4o取得了显著提升。
然而,与已发布的Devin生产版本相比,仍存在较大差距,主要原因是Devin生产版本是在专有数据上进行训练的。
另外,根据 Devin 团队分享的信息,o1 在找到正确解决方案之前,通常会回溯并考虑不同的选项,因此不太可能出现幻觉或自信地犯错。
使用 o1-preview 时,Devin 更有可能准确诊断出 bug 的根本原因,而不是仅仅解决表面问题。
在更注重数学和逻辑推理的Livebench榜单中,尽管o1-preview在代码单项上处于劣势,但其总分仍然超过了Claude-3.5-Sonnet,并且拉开了明显的差距。
Livebench团队分享说,这还只是初步结果,因为在许多测试中还内置了“请一步一步地思考”等提示词技巧,而这并不是使用o1的最佳方法。
在中文大模型综合测评基准SuperCLUE的中文复杂任务高阶推理测试中,o1-preview的推理能力表现出显著优势。
最后总结一下,使用 o1 模型时还需要注意的几点:
总之,关于OpenAI的新模型o1,开发者社区仍有许多疑问。
O1 开启了人工智能高级推理的新范式,但自身仍不完善,如何充分发挥其最大价值仍有待探索。
在此情况下,OpenAI 举办的“有问必答”活动,在4小时内收到了上百个问题。
以下是整个活动内容的精选和总结。
首先,对于这个突然发布的新模型,很多人好奇为什么OpenAI会给它起名为o1?
这是因为,在OpenAI看来,o1代表了AI能力的一个全新层次,因此对“计数器”进行了重置,而o则代表OpenAI。
正如奥特曼在发布o1时所说,能够进行复杂推理的o1标志着一个新的范式的开始。
对于preview和mini这两个版本号,OpenAI的科学家也证实了网友的一些猜测——
预览版是一个临时版本,正式版将在未来发布(实际上,预览版是o1的一个早期检查点);而迷你版则不保证在近期会有更新。
结合 OpenAI 成员 Kevin Lu 之前发布的一张图,这个问题就变得更加清晰明了了。
与 preview 相比,mini 在某些任务上表现更出色,特别是在与代码相关的任务上。它还可以探索更多的思维链,但其世界知识相对较少。
对此,OpenAI 科学家赵盛佳解释说,mini 是一个高度专业化的模型,仅专注于少数能力,因此能够进行更深入的研究。
这也可以算是揭开了之前阿尔特曼在这个问题上设置的一个谜团。
关于O1的运作方式,OpenAI科学家Noam Brown明确表示,这并不是像一些网友所认为的那样,是由模型加上CoT组成的“系统”,而是一个已经训练到能够原生生成思维链的模型。
然而,在推理过程中,思维链会被隐藏起来,而且官方已经明确表示没有向用户展示相关令牌的计划。对于此情况,OpenAI仅透露了少量信息,即CoT的相关令牌是总结性的,并且不保证它们会完全与推理过程相匹配。
除了推理模式外,我们在这次问答活动中还了解到,与GPT-4相比,O1能够处理更长的文本,并且这一能力在未来还将继续提升。
在表现上,根据OpenAI内部的测试,o1展现出了哲学推理的能力,能够思考诸如“生命是什么?”这样的哲学问题。
研究人员还利用o1创建了一个GitHub机器人,能够将代码发送给所有者进行审核。
当然,在一些非推理性质的任务上,比如创意写作,O1的表现相比GPT-4提升并不明显,甚至有时还略逊一筹。
另外,根据一些综合提问,对于网友们关注的某些未上线的功能,OpenAI 表示正在研究或者已有研究计划,但目前还没有明确的上线时间。
在性能方面,OpenAI 也在努力减少延迟和推理所需的时间。
最后是人们,尤其是API用户所关心的价格问题,因为考虑到将推理过程计入输出token,o1的定价还是相对较高的。
OpenAI 表示“将遵循每 1-2 年价格下降的趋势”,并在使用量限制变得更加宽松时,推出批量 API 的定价。
网页和App端的Plus用户目前每周收到的消息限制为preview30条和mini50条。
不过,好消息是,由于大家对o1的热情过高,导致许多人的额度迅速用完,因此OpenAI在今天凌晨特例重置了一次额度。
你对O1还有什么疑问或期待吗?欢迎在评论区交流讨论。
请提供需要重写的文本内容,以便我为您服务。
本文来自微信公众号“量子位”(ID:QbitAI),作者:梦晨、克雷西,原标题为《O1 完整思维链成 OpenAI 头号禁忌!问多了可能会被封号》。