Google ha annunciato una significativa espansione del suo sistema AI Project Mariner, portando le sue capacità di controllo del computer agli sviluppatori tramite le piattaforme Gemini API e Vertex AI.
Presentato per la prima volta alla fine del 2024, Project Mariner rappresenta l’ambizioso tentativo di Google di trasformare il modo in cui gli utenti interagiscono con le interfacce digitali grazie agli agenti AI. Il sistema è in grado di comprendere e ragionare sulle informazioni visualizzate su uno schermo, inclusi testi, immagini, codice e moduli web, per poi navigare autonomamente sui siti e completare compiti complessi.
L’ultima versione di Project Mariner è stata notevolmente potenziata per funzionare su macchine virtuali nel cloud, in modo simile agli agenti di OpenAI e Amazon. Questo approccio cloud consente agli utenti di lavorare su altri progetti mentre Project Mariner svolge attività in background, gestendo fino a dieci operazioni diverse contemporaneamente—un miglioramento sostanziale rispetto alla versione precedente che funzionava solo nel browser.
Diverse aziende stanno già esplorando il potenziale di Project Mariner, tra cui gli specialisti dell’automazione Automation Anywhere e UiPath, insieme a Browserbase, Autotab, The Interaction Company e Cartwheel. Questi early adopter stanno sfruttando la capacità della tecnologia di automatizzare flussi di lavoro web complessi che in precedenza richiedevano un ampio intervento umano.
Google ha inoltre implementato avanzate misure di sicurezza per proteggere da minacce come le indirect prompt injection, in cui istruzioni malevole possono essere inserite nei dati recuperati dai modelli AI. Secondo Google, questi miglioramenti hanno aumentato significativamente il tasso di protezione di Gemini durante l’uso degli strumenti, rendendo Gemini 2.5 la famiglia di modelli più sicura dell’azienda fino ad oggi.
Un accesso più ampio alle capacità di Project Mariner per gli sviluppatori è previsto per questa estate, con il potenziale di rivoluzionare il modo in cui vengono create applicazioni AI in grado di controllare e interagire con le interfacce dei computer. La tecnologia sarà inoltre integrata nella modalità AI di Google Search, dove inizialmente gestirà attività come l’acquisto di biglietti per eventi, la prenotazione di ristoranti e la pianificazione di appuntamenti locali.