跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

谷歌在人工智能与机器人领域的探索如同猛虎插翅,其技术在836平方米的复杂环境中,指令执行成功率竟可达到90%。

编辑日期:2024年07月13日

谷歌在人工智能与机器人领域的探索如同猛虎

DeepMind的研究团队近期发布了一篇新论文,他们借助 Gemini 1.5 Pro 的广阔上下文窗口(可容纳200万个词汇元素),使得用户能够更便捷地通过自然语言指令与RT-2机器人进行沟通。

请注意,语境窗口(context window)是指在语言模型预测或创造文本的过程中,所涵盖的先前词汇(token)或文本段落的范围限制。

该系统运作的机制是拍摄特定区域(例如住宅或办公室)的视频巡览,随后科研人员利用 Gemini 1.5 Pro 让机器人“学习”环境知识;之后,根据所吸收的信息,机器人能够通过语言及/或图像的形式执行指令。

当用户展示一部手机并问“如何能找到充电的地方?”,机器人会协助用户寻找到室内的电源插口。

升级为Gemini后,DeepMind的机器人在近9000平方英尺的操作区域内接受了测试,成功执行了超过50个用户指令,成功率达到了90%。

研究人员揭示了“初步迹象”,表明Gemini 1.5 Pro能使机器人学会如何执行除导航外的其他任务。

比如,面对一个桌上摆满可乐罐的用户询问是否备有他们最爱的饮品时,Gemini 能理解应去冰箱查找,确认是否有可乐,再回到用户身边告知结果。DeepMind 计划深入探究这些发现。

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析