Google lleva los poderes visuales de Project Astra a Gemini Live

Google ha integrado las avanzadas capacidades de comprensión visual de Project Astra en Gemini Live, permitiendo que el asistente de IA vea e interprete el mundo a través de las cámaras y pantallas de los smartphones de los usuarios. Esta importante actualización, anunciada en Google I/O 2025, permite que Gemini ofrezca asistencia en tiempo real analizando información visual durante las conversaciones. La función, antes limitada a suscriptores de pago, ya está disponible para todos los usuarios de Android e iOS, marcando un gran paso hacia la visión de Google de crear un asistente de IA universal.

Google ha dado un paso importante para que los asistentes de IA sean más conscientes visualmente al integrar las capacidades de Project Astra en Gemini Live, según se anunció en el Google I/O 2025 el 20 de mayo.

Project Astra, presentado por primera vez en Google I/O 2024, representa la visión de Google DeepMind de un "asistente de IA universal que pueda ser realmente útil en la vida cotidiana". El objetivo final es transformar la app de Gemini en un asistente de IA universal que realice tareas diarias, gestione asuntos administrativos rutinarios y ofrezca recomendaciones personalizadas para hacer a los usuarios más productivos y enriquecer sus vidas. Esto comienza con capacidades exploradas inicialmente en Project Astra, como la comprensión de vídeo, el uso compartido de pantalla y la memoria.

Google anunció que Project Astra —la experiencia de IA multimodal y de baja latencia de la compañía— impulsará una serie de nuevas experiencias en Search, la app de Gemini y productos de desarrolladores externos. De forma destacada, Project Astra es la base de la nueva función Search Live en la Búsqueda de Google. Al utilizar el Modo IA o Lens, los usuarios pueden pulsar el botón "Live" para hacer preguntas sobre lo que están viendo a través de la cámara de su smartphone. Project Astra transmite vídeo y audio en directo a un modelo de IA y responde con respuestas prácticamente sin latencia.

En la app de Gemini, Google afirma que las capacidades de vídeo en tiempo real y uso compartido de pantalla de Project Astra llegarán a todos los usuarios. Aunque Project Astra ya impulsa las conversaciones de baja latencia de Gemini Live, esta entrada visual estaba reservada anteriormente a los suscriptores de pago. A la gente le encanta Gemini Live, con conversaciones cinco veces más largas que las interacciones basadas en texto de media, porque ofrece nuevas formas de recibir ayuda, ya sea para solucionar una avería doméstica o recibir consejos de compra personalizados. Por eso, desde hoy, Google pone Gemini Live con cámara y uso compartido de pantalla a disposición de todos los usuarios de Android e iOS de forma gratuita.

Las aplicaciones prácticas son impresionantes. Google demostró las capacidades de Project Astra mostrando un vídeo de Gemini Live ayudando en actividades cotidianas, como reparar una bicicleta. En el vídeo, el usuario pide a Project Astra que busque el manual de la bicicleta que está reparando. La IA navega por la web, encuentra el documento y pregunta qué desea ver el usuario a continuación. El usuario le indica entonces a Project Astra que desplace el documento hasta encontrar una sección sobre los frenos. La pantalla del teléfono Android muestra cómo Project Astra realiza esa acción y encuentra la información. Este tipo de comportamiento agente sugiere que Project Astra podrá acceder a información específica en línea, incluso dentro de documentos.

Durante el último año, Google ha ido integrando estas capacidades en Gemini Live para que más personas puedan experimentarlas. La compañía sigue mejorando y explorando nuevas innovaciones, como la mejora de la voz para que suene más natural con audio nativo, el perfeccionamiento de la memoria y la incorporación del control por ordenador. Google está recogiendo comentarios sobre estas funciones de probadores de confianza y trabaja para llevarlas a Gemini Live, a nuevas experiencias en Search, a la API Live para desarrolladores y a nuevos formatos como las gafas.

Esta integración supone un avance significativo para que los asistentes de IA sean más conscientes del contexto y útiles en situaciones cotidianas, permitiendo que la tecnología comprenda mejor el entorno de los usuarios y ofrezca una asistencia más relevante.

Source:

Google lleva los poderes visuales de Project Astra a Gemini Live

Latest News

Doubao AI de ByteDance ahora ofrece asistencia en vídeo en tiempo real

OnePlus sustituye el Alert Slider por la nueva tecla Plus impulsada por IA

Gigantes tecnológicos alemanes se unen para crear una gigafactoría de IA respaldada por la UE

Fiscales estadounidenses investigaron a Builder.ai antes del colapso de la startup de IA valorada en 1.500 millones de dólares

El fondo noruego de 1,8 billones de dólares hace que la IA sea obligatoria para su plantilla

OpenTools.ai presenta un centro de noticias sobre IA para profesionales tecnológicos

Google amplía el control informático por IA a desarrolladores a través de Gemini

Google mejora los modelos Gemini con resúmenes transparentes del razonamiento

Google lleva los poderes visuales de Project Astra a Gemini Live

Related Articles

Doubao AI de ByteDance ahora ofrece asistencia en vídeo en tiempo real

Google amplía el control informático por IA a desarrolladores a través de Gemini

Google mejora los modelos Gemini con resúmenes transparentes del razonamiento

Los modelos Claude 4 de Anthropic establecen un nuevo referente en la programación con IA

Google amplía el Modo IA en la búsqueda a nivel nacional con funciones avanzadas

Latest News

Doubao AI de ByteDance ahora ofrece asistencia en vídeo en tiempo real

OnePlus sustituye el Alert Slider por la nueva tecla Plus impulsada por IA

Gigantes tecnológicos alemanes se unen para crear una gigafactoría de IA respaldada por la UE

Fiscales estadounidenses investigaron a Builder.ai antes del colapso de la startup de IA valorada en 1.500 millones de dólares

El fondo noruego de 1,8 billones de dólares hace que la IA sea obligatoria para su plantilla

OpenTools.ai presenta un centro de noticias sobre IA para profesionales tecnológicos

Google amplía el control informático por IA a desarrolladores a través de Gemini

Google mejora los modelos Gemini con resúmenes transparentes del razonamiento