구글이 Project Mariner AI 시스템의 대규모 확장을 발표하며, 그 컴퓨터 제어 기능을 Gemini API와 Vertex AI 플랫폼을 통해 개발자들에게 제공한다고 밝혔다.
2024년 말 처음 공개된 Project Mariner는 AI 에이전트를 통해 사용자가 디지털 인터페이스와 상호작용하는 방식을 혁신하려는 구글의 야심찬 프로젝트다. 이 시스템은 컴퓨터 화면에 표시된 텍스트, 이미지, 코드, 웹 폼 등 다양한 정보를 이해하고 추론할 수 있으며, 웹사이트를 자율적으로 탐색하고 복잡한 작업을 자동으로 수행한다.
최신 버전의 Project Mariner는 클라우드 내 가상 머신에서 실행되도록 대폭 업그레이드되었으며, 이는 OpenAI와 아마존의 에이전트와 유사한 방식이다. 이러한 클라우드 기반 접근 방식 덕분에 사용자는 Project Mariner가 백그라운드에서 작업을 수행하는 동안 다른 프로젝트에 집중할 수 있으며, 동시에 최대 10개의 작업을 처리할 수 있다. 이는 브라우저 내에서만 동작하던 이전 버전에 비해 큰 진전이다.
Automation Anywhere, UiPath 등 자동화 전문 기업을 비롯해 Browserbase, Autotab, The Interaction Company, Cartwheel 등 여러 업체가 이미 Project Mariner의 가능성을 실험하고 있다. 이들 초기 도입 기업은 기존에 많은 인력이 필요했던 복잡한 웹 기반 워크플로우를 자동화하는 데 이 기술을 활용하고 있다.
구글은 또한 AI 모델이 수집하는 데이터에 악의적 명령이 숨겨질 수 있는 간접 프롬프트 인젝션 등 위협에 대응하기 위해 고급 보안 조치도 도입했다. 구글에 따르면, 이러한 보안 강화로 Gemini의 도구 사용 시 보호율이 크게 향상되어, Gemini 2.5가 현재까지 가장 안전한 모델 계열이 되었다.
Project Mariner의 기능은 올여름 더 많은 개발자에게 공개될 예정으로, 개발자들이 컴퓨터 인터페이스를 제어하고 상호작용하는 AI 애플리케이션을 구축하는 방식을 혁신할 것으로 기대된다. 이 기술은 구글 검색의 AI 모드에도 통합되어, 우선 이벤트 티켓 구매, 레스토랑 예약, 지역 일정 예약 등 업무를 처리하는 데 활용될 예정이다.