Google lleva los poderes visuales de Project Astra a Gemini Live

Google ha integrado las avanzadas capacidades de comprensión visual de Project Astra en Gemini Live, permitiendo que el asistente de IA vea e interprete el mundo a través de las cámaras y pantallas de los smartphones de los usuarios. Esta importante actualización, anunciada en Google I/O 2025, permite que Gemini brinde asistencia en tiempo real analizando información visual durante las conversaciones. La función, antes limitada a suscriptores de pago, ahora está disponible para todos los usuarios de Android y iOS, marcando un paso clave hacia la visión de Google de crear un asistente de IA universal.

Google ha dado un salto significativo en la creación de asistentes de IA más conscientes visualmente al integrar las capacidades de Project Astra en Gemini Live, según se anunció en Google I/O 2025 el 20 de mayo.

Project Astra, presentado por primera vez en Google I/O 2024, representa la visión de Google DeepMind de un "asistente de IA universal que realmente pueda ser útil en la vida cotidiana". El objetivo final es transformar la app de Gemini en un asistente de IA universal capaz de realizar tareas diarias, gestionar asuntos administrativos rutinarios y ofrecer recomendaciones personalizadas para hacer a los usuarios más productivos y enriquecer sus vidas. Esto comienza con capacidades inicialmente exploradas en Project Astra, como la comprensión de video, el uso compartido de pantalla y la memoria.

Google anunció que Project Astra —la experiencia de IA multimodal y de baja latencia de la compañía— impulsará una variedad de nuevas experiencias en Search, la app de Gemini y productos de desarrolladores externos. De manera destacada, Project Astra potencia una nueva función Search Live en Google Search. Al usar AI Mode o Lens, los usuarios pueden pulsar el botón "Live" para hacer preguntas sobre lo que están viendo a través de la cámara de su smartphone. Project Astra transmite video y audio en tiempo real a un modelo de IA y responde con respuestas casi sin latencia.

En la app de Gemini, Google afirma que las capacidades de video en tiempo real y uso compartido de pantalla de Project Astra estarán disponibles para todos los usuarios. Aunque Project Astra ya impulsa las conversaciones de baja latencia en Gemini Live, esta entrada visual antes estaba reservada para suscriptores de pago. A la gente le encanta Gemini Live, con conversaciones cinco veces más largas en promedio que las interacciones basadas en texto, ya que ofrece nuevas formas de recibir ayuda, ya sea para solucionar un electrodoméstico descompuesto o recibir consejos de compra personalizados. Por eso, a partir de hoy, Google pone Gemini Live con cámara y uso compartido de pantalla a disposición de todos en Android y iOS de forma gratuita.

Las aplicaciones prácticas son impresionantes. Google demostró las capacidades de Project Astra mostrando un video de Gemini Live ayudando en actividades cotidianas, como reparar una bicicleta. En el video, el usuario le pide a Project Astra que busque el manual de la bicicleta que está reparando. La IA navega por la web, encuentra el documento y pregunta qué desea ver el usuario a continuación. El usuario le indica entonces a Project Astra que desplace el documento hasta encontrar la sección sobre frenos. La pantalla del teléfono Android muestra a Project Astra haciendo exactamente eso y encontrando la información. Este tipo de comportamiento agente sugiere que Project Astra podrá acceder a información específica en línea, incluso dentro de documentos.

Durante el último año, Google ha estado integrando estas capacidades en Gemini Live para que más personas puedan experimentarlas. La empresa sigue mejorando y explorando nuevas innovaciones, incluyendo la actualización de la voz para que suene más natural con audio nativo, la mejora de la memoria y la incorporación de control por computadora. Google ahora está recopilando comentarios sobre estas capacidades de testers de confianza y trabaja para llevarlas a Gemini Live, nuevas experiencias en Search, la API Live para desarrolladores y nuevos formatos como lentes inteligentes.

Esta integración representa un avance importante para que los asistentes de IA sean más conscientes del contexto y útiles en escenarios cotidianos, permitiendo que la tecnología comprenda mejor los entornos de los usuarios y brinde asistencia más relevante.

Source:

Google lleva los poderes visuales de Project Astra a Gemini Live

Latest News

Doubao AI de ByteDance ahora ofrece asistencia en video en tiempo real

OnePlus reemplaza el Alert Slider por el nuevo Plus Key impulsado por IA

Gigantes tecnológicos alemanes se unen para crear una gigafábrica de IA respaldada por la UE

Fiscales de EE. UU. Investigaron a Builder.ai Antes del Colapso de la Startup de IA Valuada en $1,500 Millones

El fondo de 1.8 billones de dólares de Noruega hace que la IA sea obligatoria para su personal

OpenTools.ai presenta un centro de noticias de IA para profesionales de tecnología

Google amplía el control de computadoras con IA para desarrolladores a través de Gemini

Google mejora los modelos Gemini con resúmenes transparentes del proceso de pensamiento

Google lleva los poderes visuales de Project Astra a Gemini Live

Related Articles

Doubao AI de ByteDance ahora ofrece asistencia en video en tiempo real

Google amplía el control de computadoras con IA para desarrolladores a través de Gemini

Google mejora los modelos Gemini con resúmenes transparentes del proceso de pensamiento

Los modelos Claude 4 de Anthropic establecen un nuevo estándar en codificación de IA

Google expande el Modo IA en todo el país con funciones avanzadas

Latest News

Doubao AI de ByteDance ahora ofrece asistencia en video en tiempo real

OnePlus reemplaza el Alert Slider por el nuevo Plus Key impulsado por IA

Gigantes tecnológicos alemanes se unen para crear una gigafábrica de IA respaldada por la UE

Fiscales de EE. UU. Investigaron a Builder.ai Antes del Colapso de la Startup de IA Valuada en $1,500 Millones

El fondo de 1.8 billones de dólares de Noruega hace que la IA sea obligatoria para su personal

OpenTools.ai presenta un centro de noticias de IA para profesionales de tecnología

Google amplía el control de computadoras con IA para desarrolladores a través de Gemini

Google mejora los modelos Gemini con resúmenes transparentes del proceso de pensamiento