跳转至

AI之家

O1 模型的完整思维链成为 OpenAI 的头号禁忌，问得太多可能会被封号。

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

O1 模型的完整思维链成为 OpenAI 的头号禁忌，问得太多可能会被封号。

编辑日期：2024年09月14日

只要尝试几次，OpenAI 就会给你发邮件威胁撤销你的使用权限。

o1-模型的完整思维链成为-openai

大模型新范式o1问世还不到24小时，许多用户就反馈收到了这封警告邮件，引发了广泛的不满。

有人反馈说，只要提示词中包含“reasoning trace”（推理轨迹）、“show your chain of thought”（展示你的思维过程）等关键词，就会收到警告。

o1-模型的完整思维链成为-openai

即使完全不使用关键词，而是通过其他方式诱导模型绕过限制，也会被检测到。

o1-模型的完整思维链成为-openai

也有人声称自己确实被封号了一周。

o1-模型的完整思维链成为-openai

这些用户都在试图让o1说出他完整的内部思考过程，即全部原始的推理令牌。

目前，大家在ChatGPT界面通过展开按钮所看到的，只是原始思维过程的一个摘要。

o1-模型的完整思维链成为-openai

实际上，在发布O1时，OpenAI 就给出了隐藏模型完整思维过程的理由。

注：原文中的“o1”可能是指某个特定的产品或版本，保留了原文的表述。如果上下文明确指的是OpenAI的某项发布，则可以替换为更具体的名称。同时，“给出理由”表示在文中他们解释了为何要这样做。

总结一下：OpenAI 需要在内部监控模型的思维过程，因此无法在这些原始 tokens 中添加安全限制，也不方便让用户查看。

o1-模型的完整思维链成为-openai

然而，这个理由并非所有人都认同。

有人指出，O1的思维过程是其他模型最好的训练数据，因此OpenAI不想让这些宝贵的数据被其他公司获取。

o1-模型的完整思维链成为-openai

也有人认为这说明了o1实际上并没有什么核心竞争力，一旦其思维过程被曝光，就很容易被他人复制。

o1-模型的完整思维链成为-openai

这是在让我们盲目相信AI的答案，而不必做任何解释吗？

o1-模型的完整思维链成为-openai

关于o1模型背后的技术原理，这次透露的信息很少，有效的信息几乎只有“使用了强化学习”。

总之，OpenAI 变得越来越不开放了。

o1-模型的完整思维链成为-openai

目前可以确定的是，o1 就是 OpenAI 一直炒作的“草莓”，或者说，它采用了“草莓”所代表的方法。

o1-模型的完整思维链成为-openai

他可以算是下一代模型GPT-5吗，还是只是GPT-4的一个变种？

越来越多的人开始怀疑，这仅仅是基于GPT-4所做的工程调整。

据知名爆料账号Flowers（原名Flowers from the future）透露，OpenAI的员工内部将o1称为“具备推理能力的4o”。

o1-模型的完整思维链成为-openai

并且他声称许多OpenAI员工默默地对此条爆料点了赞，上面的截图也正是来自OpenAI的员工。

但前不久马斯克对推特进行了改版，现在除了发帖人之外，其他人无法看到谁给哪些内容点了赞，因此目前无法证实这一消息。

o1-模型的完整思维链成为-openai

在最近举行的OpenAI开发者账号“有问必答”（Ask Me Anything）活动中，Flowers也进行了提问。

o1-模型的完整思维链成为-openai

OpenAI 的员工在这里回答了许多问题，但回避了这个获得大量点赞、排名靠前的问题。

o1-模型的完整思维链成为-openai

甚至阿尔特曼本人最近再次充当谜语人，暗示“草莓”阶段已经结束，而下一个代号为“猎户座”（Orion）的新模型即将推出。

此前有消息称，“猎户座”是OpenAI的下一代旗舰模型，该模型是由“草莓”（即o1）生成的合成数据进行训练的。

而猎户座正是阿尔特曼所说的“冬季星座”的代表之一。

o1-模型的完整思维链成为-openai

说到已经发布的 o1，另一种针对它的批评是“不符合科研规范”。

例如，没有引用之前关于推理时间计算的相关工作，同时也缺乏与其他公司最先进模型的比较。

o1-模型的完整思维链成为-openai

针对前一点，有人指出OpenAI已经不再只是一个研究实验室，而应该被看作是一家商业公司。

o1-模型的完整思维链成为-openai

不过对于后一点，既然API已经发布，是否与其他前沿模型进行比较就不再由你决定了，许多第三方基准测试已经陆续产生了结果。

在 Keras 之父举办的 100 万美金 AGI 奖项比赛中，o1-preview 和 o1-mini 两个版本在公开测试集上的表现均超过了自家的 GPT-4o。

但是，o1-preview 仅与隔壁的 Claude 3.5-Sonnet 打成了平手。

o1-模型的完整思维链成为-openai

在o1重点宣传的代码能力方面，开源结对编程工具aider团队进行了测试，但o1系列并没有表现出显著的优势。

在整个代码重写任务中，o1-preview获得了79.7分，而Claude-3.5-Sonnet获得了75.2分，o1领先4.5分。

但对于更实用的代码编辑任务，o1-preview的表现反而比Claude-3.5-Sonnet差，存在2.2分的差距。

另外，aider团队提醒，如果目前想用o1系列替代Claude进行编程，成本会高出许多。

o1-模型的完整思维链成为-openai

与OpenAI有合作关系的“AI程序员”Devin团队，已经提前获得了o1访问资格。

注：o1应该是特定的术语或代号，如果在上下文中应该被引出或解释，但在这里由于缺乏上下文信息，直接保留原样。

在他们的测试中，由o1系列驱动的Devin基础版本相比GPT-4o取得了显著提升。

然而，与已发布的Devin生产版本相比，仍存在较大差距，主要原因是Devin生产版本是在专有数据上进行训练的。

另外，根据 Devin 团队分享的信息，o1 在找到正确解决方案之前，通常会回溯并考虑不同的选项，因此不太可能出现幻觉或自信地犯错。

使用 o1-preview 时，Devin 更有可能准确诊断出 bug 的根本原因，而不是仅仅解决表面问题。

o1-模型的完整思维链成为-openai

在更注重数学和逻辑推理的Livebench榜单中，尽管o1-preview在代码单项上处于劣势，但其总分仍然超过了Claude-3.5-Sonnet，并且拉开了明显的差距。

Livebench团队分享说，这还只是初步结果，因为在许多测试中还内置了“请一步一步地思考”等提示词技巧，而这并不是使用o1的最佳方法。

o1-模型的完整思维链成为-openai

在中文大模型综合测评基准SuperCLUE的中文复杂任务高阶推理测试中，o1-preview的推理能力表现出显著优势。

o1-模型的完整思维链成为-openai

最后总结一下，使用 o1 模型时还需要注意的几点：

总之，关于OpenAI的新模型o1，开发者社区仍有许多疑问。

O1 开启了人工智能高级推理的新范式，但自身仍不完善，如何充分发挥其最大价值仍有待探索。

在此情况下，OpenAI 举办的“有问必答”活动，在4小时内收到了上百个问题。

o1-模型的完整思维链成为-openai

以下是整个活动内容的精选和总结。

首先，对于这个突然发布的新模型，很多人好奇为什么OpenAI会给它起名为o1？

这是因为，在OpenAI看来，o1代表了AI能力的一个全新层次，因此对“计数器”进行了重置，而o则代表OpenAI。

正如奥特曼在发布o1时所说，能够进行复杂推理的o1标志着一个新的范式的开始。

o1-模型的完整思维链成为-openai

对于preview和mini这两个版本号，OpenAI的科学家也证实了网友的一些猜测——

预览版是一个临时版本，正式版将在未来发布（实际上，预览版是o1的一个早期检查点）；而迷你版则不保证在近期会有更新。

o1-模型的完整思维链成为-openai

结合 OpenAI 成员 Kevin Lu 之前发布的一张图，这个问题就变得更加清晰明了了。

o1-模型的完整思维链成为-openai

与 preview 相比，mini 在某些任务上表现更出色，特别是在与代码相关的任务上。它还可以探索更多的思维链，但其世界知识相对较少。

对此，OpenAI 科学家赵盛佳解释说，mini 是一个高度专业化的模型，仅专注于少数能力，因此能够进行更深入的研究。

o1-模型的完整思维链成为-openai

这也可以算是揭开了之前阿尔特曼在这个问题上设置的一个谜团。

o1-模型的完整思维链成为-openai

关于O1的运作方式，OpenAI科学家Noam Brown明确表示，这并不是像一些网友所认为的那样，是由模型加上CoT组成的“系统”，而是一个已经训练到能够原生生成思维链的模型。

o1-模型的完整思维链成为-openai

然而，在推理过程中，思维链会被隐藏起来，而且官方已经明确表示没有向用户展示相关令牌的计划。对于此情况，OpenAI仅透露了少量信息，即CoT的相关令牌是总结性的，并且不保证它们会完全与推理过程相匹配。

除了推理模式外，我们在这次问答活动中还了解到，与GPT-4相比，O1能够处理更长的文本，并且这一能力在未来还将继续提升。

在表现上，根据OpenAI内部的测试，o1展现出了哲学推理的能力，能够思考诸如“生命是什么？”这样的哲学问题。

研究人员还利用o1创建了一个GitHub机器人，能够将代码发送给所有者进行审核。

当然，在一些非推理性质的任务上，比如创意写作，O1的表现相比GPT-4提升并不明显，甚至有时还略逊一筹。

另外，根据一些综合提问，对于网友们关注的某些未上线的功能，OpenAI 表示正在研究或者已有研究计划，但目前还没有明确的上线时间。

在性能方面，OpenAI 也在努力减少延迟和推理所需的时间。

最后是人们，尤其是API用户所关心的价格问题，因为考虑到将推理过程计入输出token，o1的定价还是相对较高的。

OpenAI 表示“将遵循每 1-2 年价格下降的趋势”，并在使用量限制变得更加宽松时，推出批量 API 的定价。

网页和App端的Plus用户目前每周收到的消息限制为preview30条和mini50条。

o1-模型的完整思维链成为-openai

不过，好消息是，由于大家对o1的热情过高，导致许多人的额度迅速用完，因此OpenAI在今天凌晨特例重置了一次额度。

o1-模型的完整思维链成为-openai

你对O1还有什么疑问或期待吗？欢迎在评论区交流讨论。

请提供需要重写的文本内容，以便我为您服务。

本文来自微信公众号“量子位”（ID：QbitAI），作者：梦晨、克雷西，原标题为《O1 完整思维链成 OpenAI 头号禁忌！问多了可能会被封号》。

大家在看

图标描述

图标描述

微软AI大模型通识教程

AI大模型开发

AI大模型入门教程

图标描述

Python入门教程

图标描述

Python进阶教程

图标描述

Python小例子200道练习题

图标描述

Python练手项目

Python从零到一60题

Python从零在线练习题

Python爬虫教程...

NumPy入门教程

NumPy文章

NumPy练习题

Pandas入门

Pandas练习

数据可视化教程

Flask开发

Django开发

Python办公自动化，数据处理，文档生成，电子邮件管理

runway-发布第三代视频生成模型90-秒生成-10-秒片段

英伟达携手合作伙伴隆重推出mistralnemo人工智能模型这一创新成果拥有惊人的120亿个参数以及高达128万个token的上下文窗口mistralnemo的问世旨在颠覆传统的商业ai应用格局开启全新的智能时代-该模型凭借其庞大的参数量和超长的上下文理解能力能够更精准地捕捉语义信息为商业决策提供更为智能高效的支持mistralnemo将引领商业ai领域迈向更高层次推动行业变革助力企业实现智能化转型

据报道苹果和openai将成为台积电...

人形机器人在工厂里具体做些什么？优必...

让照片在30秒内动起来首个全自主研发...

Page Views: Site Views: Visitors:

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析