OpenAI的SearchGPT官方演示出现重大失误,源代码竟然泄露了搜索机制。
编辑日期:2024年07月28日
SearchGPT发布仅过了两天,就已经有人进行了灰度测试。今天,网友Kesku自制的演示视频在网络上疯传,SearchGPT的结果输出速度惊人,令所有人惊叹不已。
当被问到Porter Robinson是否有出新的专辑时,只见SearchGPT瞬间就回答出了答案:“Smile”,并且最后还附上了相关的链接。
再来看移动版本的回应速度,回答延迟几乎为 0。
在评论区下方,满屏都是震惊体的评论。
但在另一方面,OpenAI 在当天发布的官方演示中,被美国媒体《大西洋月刊》指出存在一个问题。在回答“8月在北卡罗来纳州布恩举行的音乐节”的问题时,SearchGPT竟然给出了错误的时间,产生了幻觉。
说好的,要取代谷歌呢?
(此句已经是中文,无需重写。如果需要更正式的语言则可改为:“我们之前所说的,是要取代谷歌。”)
Kesku自己测试的另一个演示展示了SearchGPT的小工具。她发现的一个情况是,SearchGPT倾向于非常关注搜索结果。「有时候你需要明确地告诉它你想要做什么,而不是你想从网络上获得什么。」
例如,当询问伦敦的天气时,SearchGPT 首先提供了未来七天的天气预报。
在伦敦举行野餐的最佳时间和地点有几个备选建议,以下是以类似小部件形式提供的选项:
Kesku 还在移动设备上测试了一些示例。
查询英伟达股票时,会展示出英伟达股票的整体可视化图表,并随后提供一些分析内容。所有的股票信息都已无缝集成在页面内。
输入歌曲名称「Never Gonna Give You Up」,随后直接呈现 YouTube 的歌曲视频。无需跳转至其他网页,即可在同一页面内聆听歌曲及观看视频。
除了搜索功能外,网友们还热衷于进行所谓的「人性化测试」——比如问:“你怎么样?”
作为一个AI语言模型,虽然我没有情感,但我会一直在这里随时准备帮助你解答问题。今天你需要我帮你解决什么问题呢?
可以,这里有一个笑话给您:
「给我来一个笑话」
一个在英语环境中广为人知的双关梗是这样的——“科学家不相信原子。为什么科学家不相信原子?因为原子构成了一切!”
眼红的网友们纷纷在评论区出题,让楼主帮忙进行测试。
第一位网友问道,“它支持地区和新闻功能吗?比如来自 TestingCatlog 的最新新闻。”
Kesku在测试后表示,“它能够通过IP地址或精确位置为您提供本地信息(后者默认是关闭的,您可以在设置中选择开启)——比如像‘我附近的电影院’这样的查询效果就很好”。
"请帮忙测试一下其智能体搜索的解释能力"。
在关于高带宽存储器的解释中,SearchGPT 用蓝色标出的内容是指参考解释。
你能试着找一些付费墙后面的文章吗?特别是那些最近与 OpenAI 签订合作夥伴关系的文章。
Kesku 提供了一篇文章的内容,但似乎仍无法绕过付费墙,只提供了文章的摘要。
更详细的内容仍然无法看到。
你可以尝试搜索「Yandex 月活跃用户数量」吗?
Kesku搜索后的结果如下所示:显然,根据提问者的問題,SearchGPT做出了回答。
「与 Perplexity 相比怎么样?」
Kesku 表示目前尚未测试复杂的任务,但他非常喜欢至今测试出来的结果。
在以下提示中,她直接问了“Kesku是谁”这样一个较为小众的问题。令人意外的是,SearchGPT给出了正确答案,而Perplexity却回答错误。
有网友评论道:“这演示太酷了!或许SearchGPT能在本地搜索领域带来一些革新呢?它能够协助你在现实生活中处理事务。从外观设计上看,它拥有优质的数据源、简洁的部件,并且运行速度极快。不知道相较于谷歌,他们能把每次查询的费用降到多少?”
科技媒体 TestingCatalog 也率先进行了内部测试,揭开 SearchGPT 搜索机制的冰山一角。
与目前ChatGPT提供的通用Bing搜索功能不同的是,SearchGPT更擅长提供实时信息。
虽然仍然依赖于Bing的索引,但SearchGPT将拥有自己的网络爬虫(类似于Perplexity),用于动态获取实时数据,以此解决Bing速度较慢的问题。
甚至,TestingCatalog 还找出了 SearchGPT 的源代码,并在评论区里肯定地说「绝对准确,我有内部消息来源。」
源代码不仅揭示了Bing的接口,还显示出搜索结果是由多模态模型支持的。虽然具体的处理流程不明确,但被调用的模型似乎具备自动理解图像的能力。
就在网友们兴致勃勃地试用时,《大西洋月刊》却站出来泼了一盆冷水 —— 在官方演示中,SearchGPT出现了明显的搜索结果错误。
用户提出的搜索问题是「8月份在北卡罗来纳州布恩举行的音乐节」。
这个问题实际上难以凸显SearchGPT相较于传统搜索引擎的优势。如果用相同的问题询问谷歌搜索,得到的结果也几乎不会有太大差别。
例如,位于首行的"阿巴拉契亚夏季节"(An Appalachian Summer Festival)在SearchGPT中显示,同样也是谷歌搜索结果中的第二位。
但尴尬的是,标题下的AI摘要将一个关键信息弄错了——经主办方确认,音乐节的举办日期是6月29日至7月27日。
如果你根据SearchGPT提供的信息去购票,将会一无所获——因为7月29日至8月16日恰好是售票处正式停售的时间段。
OpenAI 的发言人凯拉·伍德已经向《大西洋月刊》承认了这个错误,并表示「这只是初期的原型,我们将会不断改进。」
这个错误不禁让人想起 Bard 曾经引发的惨剧。
2023年2月,谷歌推出了一款聊天机器人产品以应对ChatGPT的挑战,然而在首次亮相时便出现了事实性的错误。这一事件导致Alphabet的股价在当日下跌了9%,市值瞬间减少了1000亿美元。
Bard 称James Webb太空望远镜拍摄了首张系外行星的照片,但实际上这一成就应归于欧洲南部天文台的VLT。
但幸运的是,OpenAI 没有股价会下跌的问题,并且其仅对内部测试用户开放的做法显得相当谨慎。考虑到谷歌之前的例子,可以预见的是,像 LLM 这样的错误几乎是在所难免的。
即使OpenAI能找到方法大幅减少SearchGPT的幻觉问题,但对于庞大的访问量来说也只是杯水车薪。
假设幻觉率仅为 1%(这已经是一个很难达到的低比率了),但即使如此,以谷歌的规模来看,这仍然会导致每天产生数千万个错误的答案。
更不用说,目前为止,我们尚未找到足够可靠且有效的方法来消除LLM的胡言乱语和幻觉。
此外,技术界的大佬 Andrej Karpathy 曾在推特上发表过这样的观点:“幻觉并非是bug,而是大型语言模型的最大特色。”
Karpathy将大型语言模型比喻为「梦想机器」:我们通过提示来引导模型「编织梦境」,再结合对训练文档的隐约记忆,从而产生生成结果。
尽管大部分情况下产生的结果都是有用的,但既然是“梦境”,就存在失控的可能性。当大型语言模型在“梦境”中涉足含有事实错误的领域时,我们会将其标记为“幻觉”。
这看起来像一个错误,但大型语言模型只是在做它一直做的事情。
这种机制与传统的搜索引擎完全不同。传统的搜索引擎在接收到提示后,只会逐字返回数据库中最相似的文档,因此可以说它存在“创造性问题”,因为搜索引擎永远无法创造新的回答。
根据 Karpathy 的说法,我们很难期望由当前大型语言模型驱动的AI搜索能产生100%真实准确的结果。
那么,这场搜索引擎的变革将如何展开呢?LLM的“梦境创意”与传统搜索引擎的真实可靠性,到底是会共存还是会形成你死我亡的局面?
参考资料:
本文出自微信公众号:微信公众号(ID:null),作者为新智元。