ニュース

Gemini 3.5 Flashに「Computer use」機能を統合、開発者のみ利用可能

ブラウザ、モバイル、デスクトップ環境全体でカスタムエージェントを構築できるように

 Googleは、AIモデル「Gemini 3.5 Flash」に「Computer use(コンピューター使用)」機能を組み込みツールとして統合したと発表した。現在、開発者は、Gemini API/Gemini Enterprise Agent Platformを通じて、Computer useを利用できる。

 Computer useは、従来、スタンドアロンの「Gemini 2.5 computer use model」としてのみ利用可能だった。今回、Gemini Flashモデルにネイティブ統合されたことで、開発者は3.5 Flashを使用して、ブラウザ、モバイル、デスクトップ環境全体で認識、推論、アクションを実行できるカスタムエージェントを構築できるようになった。

 これにより、継続的なソフトウェアテストや、業務アプリをまたいだナレッジワークなど、長時間にわたる自動化タスクのパフォーマンスが向上する。

 なお、安全対策として、稼働中の環境でエージェントが悪用される「プロンプトインジェクション」のリスクを軽減するため、コンピューター利用のために標的型敵対的学習を使用している。

 また、企業向けのオプションとして、以下の2つの安全機能を新たに提供する。

  • 取り消し不可能な操作や機密性の高い操作の前に、ユーザーの明示的な確認を求める機能
  • 間接的なプロンプトインジェクションを検知した場合に、タスクを自動停止する機能

 同社では、これらを「多層防御(defense-in-depth)」の考え方に基づいて提供するとしており、安全なサンドボックス環境の使用、人間による監視(human-in-the-loop)、厳格なアクセス制御と組み合わせることを開発者に推奨している。