Googleは、Project MarinerのAIシステムを大幅に拡張し、そのコンピューター操作機能をGemini APIおよびVertex AIプラットフォームを通じて開発者向けに提供すると発表しました。
2024年後半に初めて発表されたProject Marinerは、AIエージェントによってユーザーのデジタルインターフェースとの関わり方を変革するというGoogleの野心的な取り組みです。このシステムは、コンピューター画面上に表示されたテキスト、画像、コード、ウェブフォームなどの情報を理解・推論し、自律的にウェブサイトを操作して複雑なタスクを完了することができます。
最新バージョンのProject Marinerは、OpenAIやAmazonのエージェントと同様に、クラウド上の仮想マシンで動作するよう大幅に強化されています。このクラウドベースのアプローチにより、ユーザーはProject Marinerがバックグラウンドでタスクを処理している間に他の作業に取り組むことができ、同時に最大10件の異なる操作を実行可能です。これは、従来のブラウザ内で動作していた前バージョンと比べて大きな進歩です。
Automation AnywhereやUiPathといった自動化の専門企業をはじめ、Browserbase、Autotab、The Interaction Company、Cartwheelなど、複数の企業がすでにProject Marinerの可能性を模索しています。これらのアーリーアダプターは、従来は多くの人手を要していた複雑なウェブベースのワークフローを自動化するために、この技術を活用しています。
Googleはまた、AIモデルが取得するデータに悪意ある指示が埋め込まれる間接的なプロンプトインジェクションなどの脅威から保護するため、高度なセキュリティ対策も導入しています。Googleによれば、これらのセキュリティ強化により、Gemini利用時の保護率が大幅に向上し、Gemini 2.5は同社で最も安全なモデルファミリーとなっています。
Project Marinerの機能は今夏より幅広い開発者が利用可能となる予定で、開発者がコンピューターインターフェースを操作・対話できるAIアプリケーションの構築方法を大きく変革する可能性があります。また、この技術はGoogle検索のAIモードにも統合され、まずはイベントチケットの購入、レストラン予約、地域のアポイントメントのスケジューリングなどのタスクに対応する予定です。