跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

O1 模型的完整思维链成为 OpenAI 的头号禁忌,问得太多可能会被封号。

编辑日期:2024年09月14日

只要尝试几次,OpenAI 就会给你发邮件威胁撤销你的使用权限。

o1-模型的完整思维链成为-openai

大模型新范式o1问世还不到24小时,许多用户就反馈收到了这封警告邮件,引发了广泛的不满。

有人反馈说,只要提示词中包含“reasoning trace”(推理轨迹)、“show your chain of thought”(展示你的思维过程)等关键词,就会收到警告。

o1-模型的完整思维链成为-openai

即使完全不使用关键词,而是通过其他方式诱导模型绕过限制,也会被检测到。

o1-模型的完整思维链成为-openai

也有人声称自己确实被封号了一周。

o1-模型的完整思维链成为-openai

这些用户都在试图让o1说出他完整的内部思考过程,即全部原始的推理令牌。

目前,大家在ChatGPT界面通过展开按钮所看到的,只是原始思维过程的一个摘要。

o1-模型的完整思维链成为-openai

实际上,在发布O1时,OpenAI 就给出了隐藏模型完整思维过程的理由。

注:原文中的“o1”可能是指某个特定的产品或版本,保留了原文的表述。如果上下文明确指的是OpenAI的某项发布,则可以替换为更具体的名称。同时,“给出理由”表示在文中他们解释了为何要这样做。

总结一下:OpenAI 需要在内部监控模型的思维过程,因此无法在这些原始 tokens 中添加安全限制,也不方便让用户查看。

o1-模型的完整思维链成为-openai

然而,这个理由并非所有人都认同。

有人指出,O1的思维过程是其他模型最好的训练数据,因此OpenAI不想让这些宝贵的数据被其他公司获取。

o1-模型的完整思维链成为-openai

也有人认为这说明了o1实际上并没有什么核心竞争力,一旦其思维过程被曝光,就很容易被他人复制。

o1-模型的完整思维链成为-openai

这是在让我们盲目相信AI的答案,而不必做任何解释吗?

o1-模型的完整思维链成为-openai

关于o1模型背后的技术原理,这次透露的信息很少,有效的信息几乎只有“使用了强化学习”。

总之,OpenAI 变得越来越不开放了。

o1-模型的完整思维链成为-openai

目前可以确定的是,o1 就是 OpenAI 一直炒作的“草莓”,或者说,它采用了“草莓”所代表的方法。

o1-模型的完整思维链成为-openai

他可以算是下一代模型GPT-5吗,还是只是GPT-4的一个变种?

越来越多的人开始怀疑,这仅仅是基于GPT-4所做的工程调整。

据知名爆料账号Flowers(原名Flowers from the future)透露,OpenAI的员工内部将o1称为“具备推理能力的4o”。

o1-模型的完整思维链成为-openai

并且他声称许多OpenAI员工默默地对此条爆料点了赞,上面的截图也正是来自OpenAI的员工。

但前不久马斯克对推特进行了改版,现在除了发帖人之外,其他人无法看到谁给哪些内容点了赞,因此目前无法证实这一消息。

o1-模型的完整思维链成为-openai

在最近举行的OpenAI开发者账号“有问必答”(Ask Me Anything)活动中,Flowers也进行了提问。

o1-模型的完整思维链成为-openai

OpenAI 的员工在这里回答了许多问题,但回避了这个获得大量点赞、排名靠前的问题。

o1-模型的完整思维链成为-openai

甚至阿尔特曼本人最近再次充当谜语人,暗示“草莓”阶段已经结束,而下一个代号为“猎户座”(Orion)的新模型即将推出。

此前有消息称,“猎户座”是OpenAI的下一代旗舰模型,该模型是由“草莓”(即o1)生成的合成数据进行训练的。

而猎户座正是阿尔特曼所说的“冬季星座”的代表之一。

o1-模型的完整思维链成为-openai

说到已经发布的 o1,另一种针对它的批评是“不符合科研规范”。

例如,没有引用之前关于推理时间计算的相关工作,同时也缺乏与其他公司最先进模型的比较。

o1-模型的完整思维链成为-openai

针对前一点,有人指出OpenAI已经不再只是一个研究实验室,而应该被看作是一家商业公司。

o1-模型的完整思维链成为-openai

不过对于后一点,既然API已经发布,是否与其他前沿模型进行比较就不再由你决定了,许多第三方基准测试已经陆续产生了结果。

在 Keras 之父举办的 100 万美金 AGI 奖项比赛中,o1-preview 和 o1-mini 两个版本在公开测试集上的表现均超过了自家的 GPT-4o。

但是,o1-preview 仅与隔壁的 Claude 3.5-Sonnet 打成了平手。

o1-模型的完整思维链成为-openai

在o1重点宣传的代码能力方面,开源结对编程工具aider团队进行了测试,但o1系列并没有表现出显著的优势。

在整个代码重写任务中,o1-preview获得了79.7分,而Claude-3.5-Sonnet获得了75.2分,o1领先4.5分。

但对于更实用的代码编辑任务,o1-preview的表现反而比Claude-3.5-Sonnet差,存在2.2分的差距。

另外,aider团队提醒,如果目前想用o1系列替代Claude进行编程,成本会高出许多。

o1-模型的完整思维链成为-openai

与OpenAI有合作关系的“AI程序员”Devin团队,已经提前获得了o1访问资格。

注:o1应该是特定的术语或代号,如果在上下文中应该被引出或解释,但在这里由于缺乏上下文信息,直接保留原样。

在他们的测试中,由o1系列驱动的Devin基础版本相比GPT-4o取得了显著提升。

然而,与已发布的Devin生产版本相比,仍存在较大差距,主要原因是Devin生产版本是在专有数据上进行训练的。

另外,根据 Devin 团队分享的信息,o1 在找到正确解决方案之前,通常会回溯并考虑不同的选项,因此不太可能出现幻觉或自信地犯错。

使用 o1-preview 时,Devin 更有可能准确诊断出 bug 的根本原因,而不是仅仅解决表面问题。

o1-模型的完整思维链成为-openai

在更注重数学和逻辑推理的Livebench榜单中,尽管o1-preview在代码单项上处于劣势,但其总分仍然超过了Claude-3.5-Sonnet,并且拉开了明显的差距。

Livebench团队分享说,这还只是初步结果,因为在许多测试中还内置了“请一步一步地思考”等提示词技巧,而这并不是使用o1的最佳方法。

o1-模型的完整思维链成为-openai

在中文大模型综合测评基准SuperCLUE的中文复杂任务高阶推理测试中,o1-preview的推理能力表现出显著优势。

o1-模型的完整思维链成为-openai

最后总结一下,使用 o1 模型时还需要注意的几点:

总之,关于OpenAI的新模型o1,开发者社区仍有许多疑问。

O1 开启了人工智能高级推理的新范式,但自身仍不完善,如何充分发挥其最大价值仍有待探索。

在此情况下,OpenAI 举办的“有问必答”活动,在4小时内收到了上百个问题。

o1-模型的完整思维链成为-openai

以下是整个活动内容的精选和总结。

首先,对于这个突然发布的新模型,很多人好奇为什么OpenAI会给它起名为o1?

这是因为,在OpenAI看来,o1代表了AI能力的一个全新层次,因此对“计数器”进行了重置,而o则代表OpenAI。

正如奥特曼在发布o1时所说,能够进行复杂推理的o1标志着一个新的范式的开始。

o1-模型的完整思维链成为-openai

对于preview和mini这两个版本号,OpenAI的科学家也证实了网友的一些猜测——

预览版是一个临时版本,正式版将在未来发布(实际上,预览版是o1的一个早期检查点);而迷你版则不保证在近期会有更新。

o1-模型的完整思维链成为-openai

结合 OpenAI 成员 Kevin Lu 之前发布的一张图,这个问题就变得更加清晰明了了。

o1-模型的完整思维链成为-openai

与 preview 相比,mini 在某些任务上表现更出色,特别是在与代码相关的任务上。它还可以探索更多的思维链,但其世界知识相对较少。

对此,OpenAI 科学家赵盛佳解释说,mini 是一个高度专业化的模型,仅专注于少数能力,因此能够进行更深入的研究。

o1-模型的完整思维链成为-openai

这也可以算是揭开了之前阿尔特曼在这个问题上设置的一个谜团。

o1-模型的完整思维链成为-openai

关于O1的运作方式,OpenAI科学家Noam Brown明确表示,这并不是像一些网友所认为的那样,是由模型加上CoT组成的“系统”,而是一个已经训练到能够原生生成思维链的模型。

o1-模型的完整思维链成为-openai

然而,在推理过程中,思维链会被隐藏起来,而且官方已经明确表示没有向用户展示相关令牌的计划。对于此情况,OpenAI仅透露了少量信息,即CoT的相关令牌是总结性的,并且不保证它们会完全与推理过程相匹配。

除了推理模式外,我们在这次问答活动中还了解到,与GPT-4相比,O1能够处理更长的文本,并且这一能力在未来还将继续提升。

在表现上,根据OpenAI内部的测试,o1展现出了哲学推理的能力,能够思考诸如“生命是什么?”这样的哲学问题。

研究人员还利用o1创建了一个GitHub机器人,能够将代码发送给所有者进行审核。

当然,在一些非推理性质的任务上,比如创意写作,O1的表现相比GPT-4提升并不明显,甚至有时还略逊一筹。

另外,根据一些综合提问,对于网友们关注的某些未上线的功能,OpenAI 表示正在研究或者已有研究计划,但目前还没有明确的上线时间。

在性能方面,OpenAI 也在努力减少延迟和推理所需的时间。

最后是人们,尤其是API用户所关心的价格问题,因为考虑到将推理过程计入输出token,o1的定价还是相对较高的。

OpenAI 表示“将遵循每 1-2 年价格下降的趋势”,并在使用量限制变得更加宽松时,推出批量 API 的定价。

网页和App端的Plus用户目前每周收到的消息限制为preview30条和mini50条。

o1-模型的完整思维链成为-openai

不过,好消息是,由于大家对o1的热情过高,导致许多人的额度迅速用完,因此OpenAI在今天凌晨特例重置了一次额度。

o1-模型的完整思维链成为-openai

你对O1还有什么疑问或期待吗?欢迎在评论区交流讨论。

请提供需要重写的文本内容,以便我为您服务。

本文来自微信公众号“量子位”(ID:QbitAI),作者:梦晨、克雷西,原标题为《O1 完整思维链成 OpenAI 头号禁忌!问多了可能会被封号》。

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析