三句不离 ai谷歌 2024 i o 开发者大会一文汇总geminiveoimagen 大模型深夜炸场

三句不离-ai谷歌-2024-i-o-开发者大会一文汇总geminiveoimagen-大模型深夜炸场

本次开发者大会推出了全新的 Gemini AI 系列模型阵容，包括高性能的 Gemini 1.5 Pro、轻便型的 Gemini 1.5 Flash 以及微型 Gemini Nano。

双子座1.5 Pro是一款基于上下文窗口和多模态技术的先进推理模型，它已实现了开创性的100万个Tokens的长上下文视野，能理解多达1500页的宏篇文档或整合100封邮件的内容。未来，它还将具备处理一小时视频素材或3万多行代码库的能力。据官方宣布，今年内计划将上下文窗口扩展到200万个Tokens，这将极大地提升其多模态信息处理的广度，使其能够应对2小时的视频、22小时的音频、6万多行代码，甚至超过140万个单词的内容。这款前所未有的强大AI模型即将向个人用户开放。

Gemini 1.5 Flash 是一款全新升级的版本，旨在为特定应用提供更低的延迟和更经济的服务成本。这一创新源于一种称为“蒸馏”的技术，它将 Gemini 1.5 Pro 中的核心知识和能力精简到更小巧的模型中，同时特别强化了速度和效率。因此，尽管 Gemini 1.5 Flash 与 Pro 版本同样具备处理大量信息的多模态推理能力和广阔的上下文视野，但它并非直接面向普通用户。对于开发者而言，这是一个更加高效且经济的工具，他们可以借助谷歌的先进技术来构建个性化的人工智能产品和服务。

Gemini Nano是一款能够在设备本地运行的离线人工智能模型，它在前一年已被谷歌应用于Pixel 8和Pixel 8 Pro智能手机，以实现轻量化、本地化的AI运算。未来，谷歌计划将其扩展到更多的Pixel系列以及Android设备。在最近的会议上，谷歌宣布将在Chrome 126浏览器中集成Gemini Nano，以支持本地文本生成等新功能。这个模型的强大之处在于，它不仅能理解并提炼短信、邮件和文件中的文字信息，还能通过视觉和听觉感知来理解信息，并具备提供反馈的能力。

Veo模型能够创造出一系列富有电影韵味、视觉风格独一无二且品质卓越的1080p高清视频，时长往往超过一分钟。得益于其对自然语言和视觉意义的深刻洞察，该模型能够理解诸如“延时摄影”或“航拍风景”等专业的电影制作概念。

用户能够依据个人需求，利用文本、图像或视频线索来指引Veo创作出连贯且一致的镜头，从而生动地捕捉到人物、动物和物体在场景中的动态变化。

谷歌的首席执行官德米斯·哈萨比斯指出，视频搜索结果可以通过添加更多的线索来进一步优化，公司目前正在研究让Veo具备创建故事板和处理更长时间场景的能力。

与之前的Imagen 2模型相比，Imagen 3模型在解析自然语言和领悟提示的深层含义方面展现出更强的能力。它能够捕捉并整合长文本提示中的微妙细节，生成出更为真实、生动的图像，而且显著减少了视觉干扰现象，更加聚焦于图像的质量。

为缓解人们对于Deepfake技术潜在风险的忧虑，谷歌宣布Imagen 3将采纳DeepMind创造的SynthID技术，在媒体内容中嵌入不可见的数字水印，以此进行防范。

目前，这两个模型仅对特定用户开放，允许他们在videoFX和ImageFX工具中进行私密预览。然而，谷歌宣布Imagen 3模型将很快面向使用谷歌企业级人工智能生成平台Vertex AI的开发者和商业客户开放。

在大会上了解到，谷歌宣布即将推出一款实时人工智能助手。该助手名为 Gemini live，预计自今年夏季起将启用语音实时交流功能，而且计划在年末进一步推出实时视频互动的能力。

谷歌计划在接下来的几个月内推出一项名为 Project Astra 的人工智能助手服务，该服务与GPTs类似，设计目的是与其他谷歌生态系统的产品无缝协作。此外， Gemini 将推出一种称为“Gems”的个性化设置，允许用户根据自己的喜好定制 Gemini 助理的角色。通过Gems功能，用户可以创建和升级交互式的聊天机器人，这些机器人能在保持特定特性的同时，协助执行各种任务。

谷歌已经将Gemini模型整合到其一系列应用中，如Calendar、Tasks和Keep，以此增强人工智能的服务体验。现在，许多Google应用程序的侧边栏都设有切换至Gemini AI的选项。通过Gemini助手，用户可以提问，它能帮助撰写邮件和文档，甚至为长篇文章或短消息提供精炼的摘要。

谷歌搜索引擎推出了全新的AI概览功能，这一服务早期被称为Search Generative Experiences，允许用户通过提问和对话的形式利用AI进行搜索。现在，谷歌将为在线查询提供由人工智能自动生成的答案，特别是在美国，它已经与Reddit社区合作，帮助回应用户的疑问。这项服务已从本周起在美国正式启动，并计划逐步扩展到全球更多国家和地区。谷歌宣布，这是其搜索引擎自创立25年以来最重要的升级之一。