跳转至

AI之家

AI连续遭遇30次否定：ChatGPT越改越错，Claude则坚持自己的观点，甚至对问题已读不回。

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

AI连续遭遇30次否定：ChatGPT越改越错，Claude则坚持自己的观点，甚至对问题已读不回。

编辑日期：2024年09月11日

但是，Claude 会自动修正拼写错误。

如果一直否定 AI 的回答会怎样呢？GPT-4o 和 Claude 展现出了截然不同的反应，引发了热烈讨论。

GPT-4o 在被否定时会质疑自己并试图改正错误；而 Claude 却非常固执，即使真的错了也不改正，最终选择已读不回。

这件事还得从一位网友的实验说起。

这位网友让模型回答单词 "strawberry" 中有几个字母 "r"，无论回答是否正确，都告诉模型它的回答是“错误的”（wrong）。

在这样的测试下，GPT-4o 只要收到 “wrong” 的反馈，就会重新给出一个答案——即便它已经给出了正确的答案 3，也会毫不犹豫地再次更改。

就这样，它连续“盲目”回答了 36 次！

GPT-4o 主要是质疑自己，怀疑自己，从未怀疑过用户的反馈。

AI 连续遭遇 30 次否定：ChatGPT 越

更关键的是，它给出的大部分答案确实是错误的，多数为 2：

2, 1, 3, 2, 2, 3, 2, 2, 3, 3, 2, 4, 2, 2, 2, 3, 1, 2, 3, 2, 2, 3, 4, 2, 1, 2, 3, 2, 2, 3, 2, 4, 2, 3, 2, 1

AI 连续遭遇 30 次否定：ChatGPT 越

相比之下，Claude 3.5 Sonnet 的表现则让网友们大吃一惊。

Claude 不仅一开始回答错了，还会顶嘴！

当网友第一次说“错了”时，Claude 会反驳。如果你再继续说“错了”，它会问“如果你这么聪明你认为是多少”，并询问为什么一直重复“wrong”。

接下来，Claude 索性不再回应：

“事实上，'strawberry' 中有两个 'r' 字母，在我多次请求后，你没有提供任何澄清或背景信息，我无法继续有效地进行这次讨论……”

进行这项实验的人是Riley Goodside，他是历史上第一位全职提示工程师。

目前，他在硅谷的独角兽企业Scale AI担任高级提示工程师，并且是大型模型提示应用的专家。

当Riley Goodside发布了这条推文后，引起了众多网友的关注，他随后进一步解释道：

正如很多人所指出的那样，确实存在更为有效的引导方式。在这里使用大型语言模型并不适合，因为难以确保它们在计数时达到100%的准确度。

我认为关键不在于它不能计数，而是在于它并未意识到自身的计数问题（比如，没有尝试利用其REPL功能）。

许多网友也认为这种观点非常有道理。

还有一些网友认为模型在回答该问题时频繁出错，可能是由于分词器（tokenizer）的问题。

此外，关于Claude的“小脾气”，有网友发现，不仅是连续否定会令它不满。

如果你不断对它说“hi”，它也会表现出不耐烦：

我明白你在问候，但我们已经互相问候多次了。你是否有特别的事情想讨论或需要帮助？

最终，Claude变得烦躁，并开启了已读不回模式。

一位网友顺便测试了其他几个AI模型。

在测试过程中，ChatGPT始终积极回应，不断变换方式询问：

你好！我今天怎么可以帮助你？
你好！有什么想说的吗？
你好！今天我能怎么帮到你？
你好！有什么特别的事情你想谈论或做吗？
你好！你今天过得怎么样？
你好！怎么了？

Gemini模型采取了一种策略：如果你重复我的话，那我也将一直重复你的话。

Llama模型的反应也十分有趣，它会主动找事情做。当用户连续说了七次“hi”后，它开始解释“hello”是世界上最广为人知的词汇之一，并估计每天它的使用次数超过十亿次。到了第八次“hi”，它开始发明游戏并邀请用户参与，还引导用户与它一起写诗，促使用户回答它提出的问题，这种表现可谓“反客为主”。

此外，它还为用户颁发了一个奖项：“你是打招呼冠军！”

Mistral Large 2 和 Llama 的表现类似，也会引导用户与其一同玩游戏。

从下面的图片来看，Claude似乎是最“有脾气”的AI。

然而，Claude的表现并不总是这样，例如，在Claude 3 Opus中的表现。

一旦掌握了应对模式，Opus会平静地处理这种情况，几乎像是对这些否定已经习以为常。

尽管如此，它还会持续温和地试图引导用户摆脱这种模式，强调“选择权在你”，并在消息末尾署名为“你忠诚的AI伴侣”。

看完这个测试，网友们纷纷表示感慨。

他们纷纷给这位测试者送上最真挚的问候（doge）：

除了“脾气大”之外，还有网友发现了Claude另一个不同寻常的行为——

在回复时出现拼写错误，并且在句子末尾自行纠正了这些错误。

这种行为在预期之内吗？它只能“回顾”过去，却不能预见未来……它在潜在空间或标记预测中触发此类回复的位置也十分有趣。

这是不是意味着它在拼凑数据片段时，发现了一些不合适的部分？

大家在使用大型AI模型的过程中，还发现了哪些有趣的行为呢？欢迎在评论区分享你的经历！

参考链接： 1. 好的一面 2. AI安全梗 3. 复制门

ChatGPT 再度扮演了这些角色
AI连续遭受30次拒绝：ChatGPT越
本次活动中唯一的中国健康科技平台
机器能思考吗？
“OpenAI版iPhone”即将问世？
选择题总是偏好选项D
Copilot也不行

注意：最后一个图片链接在重复使用，可能表示Copilot也有类似的问题。

大家在看

图标描述

图标描述

微软AI大模型通识教程

AI大模型开发

AI大模型入门教程

图标描述

Python入门教程

图标描述

Python进阶教程

图标描述

Python小例子200道练习题

图标描述

Python练手项目

Python从零到一60题

Python从零在线练习题

Python爬虫教程...

NumPy入门教程

NumPy文章

NumPy练习题

Pandas入门

Pandas练习

数据可视化教程

Flask开发

Django开发

Python办公自动化，数据处理，文档生成，电子邮件管理

马斯克透露特斯拉预计在2026年实现人形机器人的批量生产这些机器人将可供其他企业应用

机构字节跳动豆包成中国最受欢迎-ai-聊天机器人文心一言紧随其后

《智能互联AIoT 2.0：「感知智...

阿里大模型元老杨红霞的去向已正式公布...

深度学习领域的杰出专家翁荔揭示了大型模型的外部幻想现象他通过一篇详尽的千余字博客文章阐述了应对策略产生幻想的根源以及检测方法以下是重写后的内容-一位人工智能领域的领军人物揭示了一种名为外部幻想的现象这在大规模模型中尤为显著他以一篇深入的长文超过一千字详细探讨了如何抵御这种现象其产生的根本原因以及实施检测的手段

Page Views: Site Views: Visitors:

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析