menu
close

Google将Project Astra视觉能力引入Gemini Live

Google已将Project Astra的先进视觉理解能力集成到Gemini Live中,使AI助手能够通过用户的智能手机摄像头和屏幕“看见”并解读世界。这一重大升级于2025年Google I/O大会上宣布,使Gemini能够在对话过程中通过分析视觉信息提供实时帮助。此前仅限付费用户使用的该功能现已向所有Android和iOS用户开放,标志着Google打造通用AI助手愿景的重要一步。
Google将Project Astra视觉能力引入Gemini Live

Google在2025年5月20日的Google I/O大会上宣布,将Project Astra的能力集成到Gemini Live中,在让AI助手具备视觉感知方面迈出了重要一步。

Project Astra最早于2024年Google I/O大会首次亮相,代表了Google DeepMind对于“能够在日常生活中真正有用的通用AI助手”的愿景。最终目标是将Gemini应用打造为一款通用AI助手,能够完成日常任务、处理琐碎事务,并提供个性化推荐,提升用户生产力并丰富生活。这一进程始于Project Astra中率先探索的能力,如视频理解、屏幕共享和记忆。

Google宣布,Project Astra——公司低延迟、多模态AI体验——将为搜索、Gemini AI应用以及第三方开发者的产品带来一系列新体验。最引人注目的是,Project Astra为Google搜索中的全新Search Live功能提供支持。在使用AI模式或Lens时,用户可以点击“Live”按钮,向手机摄像头所见内容提问。Project Astra会将实时视频和音频流输入AI模型,并以几乎无延迟的速度做出回应。

在Gemini应用中,Google表示Project Astra的实时视频和屏幕共享能力将面向所有用户开放。虽然Project Astra已为Gemini Live提供低延迟对话支持,但此前视觉输入功能仅限付费订阅者使用。Google指出,用户非常喜欢Gemini Live,其对话平均时长是基于文本交互的五倍,因为它为获取帮助提供了全新方式,无论是排查家电故障还是获得个性化购物建议。因此,从今天起,Google将Gemini Live的摄像头和屏幕共享功能免费向所有Android和iOS用户开放。

实际应用令人印象深刻。Google通过演示视频展示了Project Astra在日常活动中的能力,例如修理自行车。视频中,用户请Project Astra帮忙查找正在修理的自行车的说明书。AI浏览网页,找到文档,并询问用户接下来想看什么。随后,用户让Project Astra在文档中滚动查找有关刹车的章节,Android手机屏幕显示Project Astra正在执行该操作并找到相关信息。这种具备自主行动能力的表现表明,Project Astra未来能够访问网络上的特定信息,甚至是文档内部内容。

过去一年,Google一直在将这些能力整合进Gemini Live,让更多用户体验。公司持续改进并探索新创新,包括通过原生音频让语音输出更自然、提升记忆能力以及增加计算机控制功能。Google目前正在收集受信任测试者对这些能力的反馈,并致力于将其应用到Gemini Live、搜索中的新体验、面向开发者的Live API以及如智能眼镜等新形态设备中。

此次集成是让AI助手在日常场景中变得更加具备环境感知和实用性的重大进步,使技术能够更好地理解用户所处环境,并提供更相关的帮助。

Source:

Latest News