大型模型厂商竞相投入,谷歌也加入竞争:Gemini聊天机器人采用新模型,并新增一键核查功能,仅反馈重写后的内容。请仅呈现重写后的文本,避免包含其他不相关文字,同时保持重写前后的大致相同字数。始终以中文作答。
编辑日期:2024年07月26日
从今日起,Gemini 聊天机器人将采用 Gemini 1.5 Flash 进行驱动。
相较于先前的版本,窗口长度增至4倍,且响应更为迅速。
根据谷歌的说明,新款聊天机器人的1.5 Flash模型主打轻量与速度升级。
当然,回复质量也有所提高,上下文窗口已从原本的8K(基于1.0 Pro)扩大到32K。
此外,新版本的聊天机器人加入了“事实查核”功能,能一键验证生成内容的真实性,有效减少因模型幻觉导致的问题。
有网友表示,今日谷歌实力强劲,不仅两款Alpha系列模型荣获IMO银牌,Gemini也已发布更新。
还有人提出愿望,希望在 Google Scholar 的学术搜索中也能整合 AI 功能。
此次更新的核心内容,是将免费版的模型从 1.0Pro 更换为 1.5 Flash。
Gemini 1.5 Flash 首次现身于 5 月的谷歌 I/O 开发者大会。
通过精简训练数据的“蒸馏”过程,Gemini 1.5 Flash 以更紧凑的体积达到了高质量的生成效果。
小体积还加速了模型运行,提升了效率,并支持多模态推理。
谷歌表示,更新模型后,聊天机器人的响应将更迅速。此外,旧版 8k 的上下文窗口已扩大至 32k。
不过,Flash 1.5 实际上支持百万级的上下文。此缩减确实显著,但考虑到这是免费版,也就可以理解了。
除模型升级外,另一重大更新是新增的事实核查功能。
在最新的 Gemini 聊天机器人中,可以使用此功能快速检查输出内容,并一键返回结果。
系统会在谷歌上搜索并比对输出内容,然后标出匹配和不匹配的部分。
有网民表示,看到OpenAI推出GPT-4迷你版时,就预料到谷歌推新只是时间早晚的问题。
确实,不仅限于 OpenAI 和谷歌,近期 Meta、Mistral 等大模型厂商活动频频。
该网友还测试了1.0 Pro和1.5 Flash两款模型,发现两者表现接近,但1.5 Flash运行速度更胜一筹。
因此,谷歌此举也在一定程度上顺应了近期流行的「模型轻量化」潮流。
那么,升级到 1.5 Flash 版后的 Gemini 聊天机器人,实际表现如何呢?
量子位对新版本聊天机器人的基础测试已完成。
首先,来看看本次更新中的事实核查功能。你只需像平常那样提出问题,Gemini 就会进行回答。
答案下方的谷歌标志即是事实核查的功能按钮。
点击后,系统会在谷歌自动搜索,并对比其输出内容。
比对结束后,能找到并匹配信源的内容将被标为绿色高亮。若有差异,则以淡红色背景显示。
点击标记处,可查看用于对比的 Gemini 链接。
须注意,此标注不代表输出内容有误。例如,此处提及的对比信息中,汤姆·克鲁斯的母亲名为玛丽·李·索思。
因文本不同步,使得答案被系统标记,实际上两者均正确。
因为这项事实核查基于网络搜索,所参考材料的质量不一,因此可能无法达到100%的准确性。
比如,“林黛玉倒拔垂杨柳”的经典桥段中,尽管Gemini回答正确,仍被标成红色。
再审视所引用的对比资料,确实显得有点难以支撑。
因此,此功能主要提升了核验的便利性。然而,采纳与否仍需多源验证及用户个人判断。
此外,针对模型本身,我们也尝试了几道近期热门、常使大型模型遭遇挑战的难题。
例如比较数值大小时,Gemini 将两数转换为金额对比,一番操作后,结果却出错了……
自从这问题浮出水面,若这算第二逗趣的回答,恐怕没哪个模型敢自封第一了。
起初提供了错误答案,但在后续分析中予以修正。
然而,如果用英语提问,仍有可能直接给出正确答案。
关于数字符号的疑问,竟能在中文里数出字母,真是出乎预料,让人摸不着头脑。
经过测试,关于本次更新提及的速度改进,我们发现 Gemini 1.5 Flash 输出首个字符的时间比 Claude 3 Haiku 短。后续速度差异对肉眼来说不太明显。
以上便是 Gemini 1.5 Flash 在聊天机器人的展示,有兴趣的读者不妨亲自体验。
参考来源:。请仅提供改写后的文字,无需附加其他不相关的内容,保持重写前后的大致字数相同。总是使用中文作答。
本文源自微信公众号:量子位(ID:QbitAI),作者:克雷西。