三句不离-ai谷歌-2024-i-o-开发者大会一文汇总geminiveoimagen-大模型深夜炸场
本次开发者大会推出了全新的 Gemini AI 系列模型阵容,包括高性能的 Gemini 1.5 Pro、轻便型的 Gemini 1.5 Flash 以及微型 Gemini Nano。
双子座1.5 Pro是一款基于上下文窗口和多模态技术的先进推理模型,它已实现了开创性的100万个Tokens的长上下文视野,能理解多达1500页的宏篇文档或整合100封邮件的内容。未来,它还将具备处理一小时视频素材或3万多行代码库的能力。据官方宣布,今年内计划将上下文窗口扩展到200万个Tokens,这将极大地提升其多模态信息处理的广度,使其能够应对2小时的视频、22小时的音频、6万多行代码,甚至超过140万个单词的内容。这款前所未有的强大AI模型即将向个人用户开放。
Gemini 1.5 Flash 是一款全新升级的版本,旨在为特定应用提供更低的延迟和更经济的服务成本。这一创新源于一种称为“蒸馏”的技术,它将 Gemini 1.5 Pro 中的核心知识和能力精简到更小巧的模型中,同时特别强化了速度和效率。因此,尽管 Gemini 1.5 Flash 与 Pro 版本同样具备处理大量信息的多模态推理能力和广阔的上下文视野,但它并非直接面向普通用户。对于开发者而言,这是一个更加高效且经济的工具,他们可以借助谷歌的先进技术来构建个性化的人工智能产品和服务。
Gemini Nano是一款能够在设备本地运行的离线人工智能模型,它在前一年已被谷歌应用于Pixel 8和Pixel 8 Pro智能手机,以实现轻量化、本地化的AI运算。未来,谷歌计划将其扩展到更多的Pixel系列以及Android设备。在最近的会议上,谷歌宣布将在Chrome 126浏览器中集成Gemini Nano,以支持本地文本生成等新功能。这个模型的强大之处在于,它不仅能理解并提炼短信、邮件和文件中的文字信息,还能通过视觉和听觉感知来理解信息,并具备提供反馈的能力。
Veo模型能够创造出一系列富有电影韵味、视觉风格独一无二且品质卓越的1080p高清视频,时长往往超过一分钟。得益于其对自然语言和视觉意义的深刻洞察,该模型能够理解诸如“延时摄影”或“航拍风景”等专业的电影制作概念。
用户能够依据个人需求,利用文本、图像或视频线索来指引Veo创作出连贯且一致的镜头,从而生动地捕捉到人物、动物和物体在场景中的动态变化。
谷歌的首席执行官德米斯·哈萨比斯指出,视频搜索结果可以通过添加更多的线索来进一步优化,公司目前正在研究让Veo具备创建故事板和处理更长时间场景的能力。
与之前的Imagen 2模型相比,Imagen 3模型在解析自然语言和领悟提示的深层含义方面展现出更强的能力。它能够捕捉并整合长文本提示中的微妙细节,生成出更为真实、生动的图像,而且显著减少了视觉干扰现象,更加聚焦于图像的质量。
为缓解人们对于Deepfake技术潜在风险的忧虑,谷歌宣布Imagen 3将采纳DeepMind创造的SynthID技术,在媒体内容中嵌入不可见的数字水印,以此进行防范。
目前,这两个模型仅对特定用户开放,允许他们在videoFX和ImageFX工具中进行私密预览。然而,谷歌宣布Imagen 3模型将很快面向使用谷歌企业级人工智能生成平台Vertex AI的开发者和商业客户开放。
在大会上了解到,谷歌宣布即将推出一款实时人工智能助手。该助手名为 Gemini live,预计自今年夏季起将启用语音实时交流功能,而且计划在年末进一步推出实时视频互动的能力。
谷歌计划在接下来的几个月内推出一项名为 Project Astra 的人工智能助手服务,该服务与GPTs类似,设计目的是与其他谷歌生态系统的产品无缝协作。此外, Gemini 将推出一种称为“Gems”的个性化设置,允许用户根据自己的喜好定制 Gemini 助理的角色。通过Gems功能,用户可以创建和升级交互式的聊天机器人,这些机器人能在保持特定特性的同时,协助执行各种任务。
谷歌已经将Gemini模型整合到其一系列应用中,如Calendar、Tasks和Keep,以此增强人工智能的服务体验。现在,许多Google应用程序的侧边栏都设有切换至Gemini AI的选项。通过Gemini助手,用户可以提问,它能帮助撰写邮件和文档,甚至为长篇文章或短消息提供精炼的摘要。
谷歌搜索引擎推出了全新的AI概览功能,这一服务早期被称为Search Generative Experiences,允许用户通过提问和对话的形式利用AI进行搜索。现在,谷歌将为在线查询提供由人工智能自动生成的答案,特别是在美国,它已经与Reddit社区合作,帮助回应用户的疑问。这项服务已从本周起在美国正式启动,并计划逐步扩展到全球更多国家和地区。谷歌宣布,这是其搜索引擎自创立25年以来最重要的升级之一。
AI的反欺诈保护功能通过在用户的设备上运行Gemini Nano模型来运作,该模型能实时分析通话中的语言,甄别出可能的欺诈性表述和诈骗惯用的交谈策略。一旦检测到疑似诈骗行为,系统会立即向用户发出警告。由于Gemini Nano模型是在本地离线状态下运行,因此无需担忧任何隐私泄露的风险。
在此次谷歌I/O开发者大会上推出的或升级的AI功能,无一不受到Gemini AI系列模型的强大支撑。正如谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在大会之初所言,谷歌已全面进入Gemini时代。
据谷歌的介绍,Gemini 已经成功地与十五个用户基数超过五亿的谷歌服务实现了整合,为每一位用户开辟了塑造未来的新途径。 Gemini 的融入将为更多的用户在日常工作和生活中创造出更多的可能性。
大家都在看
Python小白教程:点击学习
数据分析练习题:点击学习
AI资料下载:点击下载