谷歌在人工智能与机器人领域的探索如同猛虎插翅,其技术在836平方米的复杂环境中,指令执行成功率竟可达到90%。
编辑日期:2024年07月13日
DeepMind的研究团队近期发布了一篇新论文,他们借助 Gemini 1.5 Pro 的广阔上下文窗口(可容纳200万个词汇元素),使得用户能够更便捷地通过自然语言指令与RT-2机器人进行沟通。
请注意,语境窗口(context window)是指在语言模型预测或创造文本的过程中,所涵盖的先前词汇(token)或文本段落的范围限制。
该系统运作的机制是拍摄特定区域(例如住宅或办公室)的视频巡览,随后科研人员利用 Gemini 1.5 Pro 让机器人“学习”环境知识;之后,根据所吸收的信息,机器人能够通过语言及/或图像的形式执行指令。
当用户展示一部手机并问“如何能找到充电的地方?”,机器人会协助用户寻找到室内的电源插口。
升级为Gemini后,DeepMind的机器人在近9000平方英尺的操作区域内接受了测试,成功执行了超过50个用户指令,成功率达到了90%。
研究人员揭示了“初步迹象”,表明Gemini 1.5 Pro能使机器人学会如何执行除导航外的其他任务。
比如,面对一个桌上摆满可乐罐的用户询问是否备有他们最爱的饮品时,Gemini 能理解应去冰箱查找,确认是否有可乐,再回到用户身边告知结果。DeepMind 计划深入探究这些发现。
大家在看
AI安装教程
AI本地安装教程
微软AI大模型通识教程
微软AI大模型通识教程
AI大模型入门教程
AI大模型入门教程
Python入门教程
Python入门教程
Python进阶教程
Python进阶教程
Python小例子200道练习题
Python小例子200道练习题
Python练手项目
Python练手项目
Python从零在线练习题
Python从零到一60题