谷歌版本的 "Her" 大失败:尝试了3次并换了手机才成功…网友:我手动操作只需10秒
编辑日期:2024年08月14日
它主要实现的功能是:使用手机拍摄演唱会海报的照片,并让Gemini查看用户的日历,以确定用户的时间安排是否允许参加演唱会。
以及基于此进行一系列后续的操作,包括查询特定时间的票价等。
然而,在进入发布会现场的演示环节时,情况却来了个180°的大转变。
请观看 VCR:
请您提供需要重写的文本内容,我将尽力帮助您。
第一次,失败了。
第二次:失败了。
(这段文字已经是中文,无需重写。)
第三次:更换手机,成功了。
嗯……从小哥的表情来看,可以明显看出他有些慌张。
就连知名科技媒体 TechCrunch 都配上了这样的表情符号:
甚至有网民开启了尖锐评论模式:
当然,这只是一天中由Google制作的小插曲。
或者
当然,这仅仅是今天由Google呈现的一个小片段。
关于 Gemini Live 的更多内容,请继续往下看。
正如我们之前提到的,Gemini Live 和 GPT-4o 的功能非常类似。
除了“拍照问答”功能外,它还可以实现实时对话,甚至可以在Gemini回复过程中进行打断。
据了解,目前Gemini Live的功能已在Android系统中对Advanced订阅用户开放(仅提供英文版)。
在未来几周内,此功能将逐步扩展到更多语言,并且也将对iOS开放。
在对话声音方面,Gemini Live 新推出了10种可供选择的声音,效果如下:
请您提供需要重写的文本内容,我将尽力帮助您。
在操作上,由于Gemini已经完全整合到系统中,因此只需要长按电源键或说出“嘿,Google”就可以启动它。
例如,在撰写邮件的过程中,可以让 Gemini 帮您生成配图,效果如下:
然而,对于这项功能,外媒的评价却大相径庭,有好评也有差评。
例如,一位 The Verge 的作者在亲自试用后给出的标题是 ——
Gemini Live比Google速度快,但使用起来更显尴尬。
具体的原因是作者在一次为期三天的公路旅行中,汽车的音响系统突然失效。
使用原来的谷歌助手来寻找解决方案需要至少五分钟的时间,而Gemini Live只耗费了15秒。
但在对话过程中,Gemini Live持续发言以及需要用户主动打断的交互方式让作者感到尴尬。
他认为:(直接翻译,无需改动)
如果需要扩展或改写可以是: 他持有这样的观点: 他这样认为: 他的看法是:
在与Gemini Live的互动中投入了更多的情感,而不仅仅将其视为解决问题的工具。
无独有偶,关于 Gemini Live 在云端运行这一特点,华尔街日报也给出了尖锐的评价——
对话方面的进步,功能上的倒退。
具体到技术层面上,GPT-4是一款端到端的系统,但从谷歌发布的信息来看,Gemini Live似乎并不属于此类。
而是集成了 STT、VAD、LLM 和 TTS 系统:
此外,谷歌新发布的Pixel系列手机中,也出现了Gemini Live的身影。
包括 Pixel 9 Pro Fold、Pixel 9、Pixel 9 Pro 以及 Pixel 9 Pro XL。
在AI功能方面,谷歌的Pixel手机在摄影上新增了一个名为“Add Me”的功能。
可以利用增强现实(AR)和人工智能(AI)技术,将两张不同照片中的人物“融合”在一起。
虽然谷歌此次发布 Gemini Live 可视为对 OpenAI GPT-4 的回应,但从大模型时代开始以来,我们明显可见一种趋势——
谷歌跟不上OpenAI的步伐。
首先,在最关键的时间点,即ChatGPT发布时,OpenAI成为了先锋。然而,随后谷歌推出的Bard与这次的Gemini Live十分相似,并且之后也遇到了失败的情况。
在接下来的一年半多的时间里,似乎所有的重大模型和重要应用的发布都是由OpenAI主导的。
相比之下,谷歌不仅在技术上显得步伐缓慢;甚至在舆论上,OpenAI 通过一次人事变动(Ilya 的离职)的消息盖过了谷歌年度最大活动(I/O 大会)的热度。
那么,为什么谷歌在大模型时代表现不佳呢?
对此,前任谷歌首席执行官 Eric Schmidt(任职于2001年至2011年)在他最近在斯坦福大学的演讲中表达了以下看法:
但是创业公司的员工,他们真的非常努力工作。
请您提供需要重写的文本内容,我将尽力帮助您。
甚至有网友爆料称:
欢迎在评论区留言讨论,您对此有何看法?
参考链接:
注意:您未提供需要重写的具体内容,仅重写了“参考链接”部分。若需重写其他内容,请提供详细信息。
本文来源于微信公众号:微信公众号(ID:QbitAI),作者为关注前沿科技。