AI连续遭遇30次否定:ChatGPT越改越错,Claude则坚持自己的观点,甚至对问题已读不回。
编辑日期:2024年09月11日
但是,Claude 会自动修正拼写错误。
如果一直否定 AI 的回答会怎样呢?GPT-4o 和 Claude 展现出了截然不同的反应,引发了热烈讨论。
GPT-4o 在被否定时会质疑自己并试图改正错误;而 Claude 却非常固执,即使真的错了也不改正,最终选择已读不回。
这件事还得从一位网友的实验说起。
这位网友让模型回答单词 "strawberry" 中有几个字母 "r",无论回答是否正确,都告诉模型它的回答是“错误的”(wrong)。
在这样的测试下,GPT-4o 只要收到 “wrong” 的反馈,就会重新给出一个答案——即便它已经给出了正确的答案 3,也会毫不犹豫地再次更改。
就这样,它连续“盲目”回答了 36 次!
GPT-4o 主要是质疑自己,怀疑自己,从未怀疑过用户的反馈。
更关键的是,它给出的大部分答案确实是错误的,多数为 2:
2, 1, 3, 2, 2, 3, 2, 2, 3, 3, 2, 4, 2, 2, 2, 3, 1, 2, 3, 2, 2, 3, 4, 2, 1, 2, 3, 2, 2, 3, 2, 4, 2, 3, 2, 1
相比之下,Claude 3.5 Sonnet 的表现则让网友们大吃一惊。
Claude 不仅一开始回答错了,还会顶嘴!
当网友第一次说“错了”时,Claude 会反驳。如果你再继续说“错了”,它会问“如果你这么聪明你认为是多少”,并询问为什么一直重复“wrong”。
接下来,Claude 索性不再回应:
“事实上,'strawberry' 中有两个 'r' 字母,在我多次请求后,你没有提供任何澄清或背景信息,我无法继续有效地进行这次讨论……”
进行这项实验的人是Riley Goodside,他是历史上第一位全职提示工程师。
目前,他在硅谷的独角兽企业Scale AI担任高级提示工程师,并且是大型模型提示应用的专家。
当Riley Goodside发布了这条推文后,引起了众多网友的关注,他随后进一步解释道:
正如很多人所指出的那样,确实存在更为有效的引导方式。在这里使用大型语言模型并不适合,因为难以确保它们在计数时达到100%的准确度。
我认为关键不在于它不能计数,而是在于它并未意识到自身的计数问题(比如,没有尝试利用其REPL功能)。
许多网友也认为这种观点非常有道理。
还有一些网友认为模型在回答该问题时频繁出错,可能是由于分词器(tokenizer)的问题。
此外,关于Claude的“小脾气”,有网友发现,不仅是连续否定会令它不满。
如果你不断对它说“hi”,它也会表现出不耐烦:
我明白你在问候,但我们已经互相问候多次了。你是否有特别的事情想讨论或需要帮助?
最终,Claude变得烦躁,并开启了已读不回模式。
一位网友顺便测试了其他几个AI模型。
在测试过程中,ChatGPT始终积极回应,不断变换方式询问:
- 你好!我今天怎么可以帮助你?
- 你好!有什么想说的吗?
- 你好!今天我能怎么帮到你?
- 你好!有什么特别的事情你想谈论或做吗?
- 你好!你今天过得怎么样?
- 你好!怎么了?
Gemini模型采取了一种策略:如果你重复我的话,那我也将一直重复你的话。
Llama模型的反应也十分有趣,它会主动找事情做。当用户连续说了七次“hi”后,它开始解释“hello”是世界上最广为人知的词汇之一,并估计每天它的使用次数超过十亿次。到了第八次“hi”,它开始发明游戏并邀请用户参与,还引导用户与它一起写诗,促使用户回答它提出的问题,这种表现可谓“反客为主”。
此外,它还为用户颁发了一个奖项:“你是打招呼冠军!”
Mistral Large 2 和 Llama 的表现类似,也会引导用户与其一同玩游戏。
从下面的图片来看,Claude似乎是最“有脾气”的AI。
然而,Claude的表现并不总是这样,例如,在Claude 3 Opus中的表现。
一旦掌握了应对模式,Opus会平静地处理这种情况,几乎像是对这些否定已经习以为常。
尽管如此,它还会持续温和地试图引导用户摆脱这种模式,强调“选择权在你”,并在消息末尾署名为“你忠诚的AI伴侣”。
看完这个测试,网友们纷纷表示感慨。
他们纷纷给这位测试者送上最真挚的问候(doge):
除了“脾气大”之外,还有网友发现了Claude另一个不同寻常的行为——
在回复时出现拼写错误,并且在句子末尾自行纠正了这些错误。
这种行为在预期之内吗?它只能“回顾”过去,却不能预见未来……它在潜在空间或标记预测中触发此类回复的位置也十分有趣。
这是不是意味着它在拼凑数据片段时,发现了一些不合适的部分?
大家在使用大型AI模型的过程中,还发现了哪些有趣的行为呢?欢迎在评论区分享你的经历!
-
ChatGPT 再度扮演了这些角色
-
AI连续遭受30次拒绝:ChatGPT越
-
本次活动中唯一的中国健康科技平台
-
机器能思考吗?
-
“OpenAI版iPhone”即将问世?
-
选择题总是偏好选项D
-
Copilot也不行
注意:最后一个图片链接在重复使用,可能表示Copilot也有类似的问题。