5月21日,Google I/O 2025开发者大会如期举行。与往年不同的是,今年的主题几乎只有一个:AI。从搜索引擎到视频生成,从智能眼镜到编程助手,Google展示了其将AI融入每一个产品的雄心。

这场发布会向外界传递了一个明确的信号:Google不再满足于做一个跟随者。在ChatGPT掀起生成式AI浪潮两年后,Google正在用一系列创新产品重新定义竞争规则。

Gemini 2.5 Pro:推理能力的新高度

Gemini 2.5 Pro的升级是本次发布会的核心。新版本引入了”Deep Think”深度思考模式,专为解决复杂问题而设计。

在USAMO(美国数学奥林匹克)等数学竞赛难题测试中,Gemini 2.5 Pro展示了令人印象深刻的推理能力。它不再只是模式匹配,而是能够进行多步推理,尝试不同的证明方法——反证法、归纳法、构造法,就像人类数学家一样。

更令人惊讶的是原生音频输出能力。之前的AI模型主要输出文字,需要额外的TTS(文字转语音)步骤。Gemini 2.5 Pro可以直接生成自然流畅的语音,语调、停顿、情感都更加真实。这为实时对话应用打开了新的可能性。

Project Mariner的计算机使用功能同样值得关注。这个实验性功能让Gemini能够像人类一样操作计算机:浏览网页、填写表单、预订机票。虽然还处于早期阶段,但它展示了AI从”回答问题”向”完成任务”进化的方向。

Veo 3:视频生成的”有声时代”

Google将Veo 3的发布称为”走出视频生成的默片时代”。这个比喻非常贴切。

之前的AI视频生成工具,无论是Runway的Gen-2还是Pika,都只能生成无声视频。创作者需要后期配音,或者接受”默片”的局限。Veo 3打破了这一限制,能够同时生成视频画面和同步音频。

这种同步生成带来了惊人的真实感。Veo 3生成的视频中,人物的口型与语音完全匹配,环境音效与画面内容一致。街景视频中有车流声、人声、风声;室内场景中有脚步声、家具碰撞声。这些细节让AI视频第一次具备了”以假乱真”的潜力。

技术演示中,Veo 3展示了多种编辑功能:场景变换、参考图生成、风格迁移、首尾帧指定、局部编辑。这些功能让视频创作从”抽卡”变成了可控的设计过程。创作者可以指定视频的开头和结尾,让AI填充中间内容;可以上传参考图片,让AI保持角色一致性;可以局部修改视频的某个区域,而不影响其他部分。

定价方面,Veo 3通过Google Flow提供服务,月费249.99美元。这个价格对于专业创作者来说是可以接受的,但对于普通用户来说仍然偏高。Google显然将Veo 3定位为专业工具,而非大众消费品。

AI Mode:搜索的彻底重构

Google搜索的AI Mode可能是本次发布会影响最深远的产品。

传统的Google搜索是一个”关键词匹配”系统。你输入几个词,它返回相关网页链接。AI Mode则完全不同——它是一个以Gemini 2.5为核心的端到端AI搜索系统。

Deep Search深度搜索模式可以自动分解复杂查询,进行多轮搜索,综合多个来源的信息,给出结构化的答案。这不仅仅是摘要,而是真正的研究助理。你问”2025年最适合远程工作的城市有哪些,考虑生活成本、网络基础设施、签证政策”,AI Mode会自动搜索每个维度,对比不同城市,给出有依据的推荐。

Search Live实时互动搜索则带来了对话式搜索体验。你可以像与人交谈一样与搜索引擎对话,追问细节、澄清歧义、调整方向。搜索引擎不再是静态的工具,而变成了动态的对话伙伴。

对于Google来说,AI Mode是一次冒险。搜索广告是其核心收入来源,而AI Mode可能减少用户点击网页的次数。但如果不自我革命,Google可能面临被ChatGPT等对话AI取代的风险。两害相权,主动变革显然是更明智的选择。

Android XR:智能眼镜的回归

Google与三星、Xreal合作推出的Android XR智能眼镜,标志着智能眼镜品类的正式回归。

还记得Google Glass吗?2013年发布的这款实验性产品,因为隐私争议和实用性不足而失败。但十多年后,技术已经发生了翻天覆地的变化。更轻的光学模组、更强大的AI芯片、更成熟的语音交互,让智能眼镜重新具备了可行性。

Android XR眼镜集成了Gemini助手,支持实时翻译、导航指引、信息提示。你在国外旅行时,眼镜可以实时翻译路标和菜单;你在陌生城市行走时,眼镜可以在视野中叠加方向箭头;你收到重要消息时,眼镜可以轻声提醒,而不需要掏出手机。

与Apple Vision Pro等VR头显不同,Android XR眼镜是”增强现实”而非”虚拟现实”。你不会被隔离在一个虚拟世界中,而是在现实世界上叠加数字信息。这种设计更符合日常使用的场景。

Google还与眼镜品牌Gentle Monster和Warby Parker合作,将推出时尚款式的智能眼镜。这解决了早期智能眼镜”戴着像怪咖”的问题。当智能眼镜看起来与普通眼镜无异时,大众接受度将大幅提升。

Imagen 4与Gemini Diffusion:图像生成的新玩家

除了视频,Google在图像生成领域也推出了新产品。

Imagen 4是Google最新的图像生成模型,在细节表现、文字渲染、风格一致性方面都有显著提升。之前的AI图像模型往往在生成文字时出错,Imagen 4在这方面有了很大改进。

Gemini Diffusion则是一个有趣的实验:将扩散模型与语言模型结合。传统的扩散模型(如Stable Diffusion)擅长生成图像,但不擅长理解复杂指令。Gemini Diffusion试图结合两者的优势,让用户可以用自然语言精确控制图像生成。

开发者的机会

对于开发者来说,Google I/O 2025带来了丰富的机会。

Gemini API的更新让集成AI功能变得更加容易。新的文件API支持更大规模的文档处理,提示词缓存功能可以降低重复调用的成本,函数调用能力的增强让AI与外部系统的集成更加灵活。

Android XR平台的开放,为应用开发者提供了新的场景。导航、翻译、旅游、教育——任何需要在现实场景中提供信息的应用,都可以在智能眼镜上找到新的表达方式。

Vertex AI平台的扩展,让企业开发者可以更轻松地部署和管理AI模型。从Gemini到开源模型,从文本到多模态,Google正在构建一个完整的AI开发生态。

竞争格局:Google的反击

过去两年,Google在AI领域常常被描述为”追赶者”。ChatGPT的先发优势让OpenAI成为行业的代名词,而Google的Bard(后更名为Gemini)在发布初期表现不佳,一度引发外界对Google AI能力的质疑。

但I/O 2025展示了Google的真正实力。从基础模型到应用产品,从消费者工具到企业平台,Google正在全线发力。与OpenAI专注对话AI不同,Google的策略是将AI融入其庞大的产品矩阵:搜索、YouTube、Gmail、地图、Android。

这种策略的优势在于用户触达。数十亿人每天都在使用Google产品,AI功能的渗透可以非常迅速。当AI Mode成为搜索的默认模式,当Gemini成为Android的默认助手,Google的AI用户规模将瞬间超过任何竞争对手。

挑战也同样明显。产品整合的复杂性、隐私问题的敏感性、监管审查的严格性,都是Google需要应对的难题。但无论如何,AI领域的竞争正在进入一个新的阶段。


参考来源: