Gemini Computer Useとは？Gemini 3.5 Flash搭載で画面を自律操作するAIエージェント機能・料金・Claudeとの違いを解説【2026年6月最新】

Gemini Computer Useとは、AIが画面のスクリーンショットを「見て」、ブラウザ・モバイル・デスクトップ上でクリックや入力、スクロールなどのUI操作を人間の代わりに自律実行する機能です。 2026年6月24日、Googleはこの機能を最速・低コストの本番モデル「Gemini 3.5 Flash」のネイティブ組み込みツールとして公開プレビュー提供を始めました。専用モデルを呼び出さなくても、単一の本番モデルが画面を操作してフォーム入力・予約・データ転記といった作業をこなせるようになった点が大きな変化です。

この記事でわかること:

Gemini Computer Useの定義と「2.5世代→3.5 Flash統合」という世代の違い
仕組み（スクリーンショット→推論→操作のエージェントループ）とできること
料金の考え方と、コストが膨らみやすいポイント
safety_decision やプロンプトインジェクション対策などの安全機構
Claude Computer Use・GPT系との違いと、向いている人/向いていない人

想定読者は、AIエージェントによる業務自動化を検討しているエンジニア・PdM・情報システム担当、および「GeminiとClaudeのどちらでコンピュータ操作AIを組むべきか」を比較したい方です。

⚠️ 本機能は2026年6月24日に公開プレビュー（Public Preview）として発表されたばかりです。料金・対応範囲・ベンチマーク値は変動しやすく、本番運用前に必ず公式ドキュメントで最新状態を確認してください。また、本記事のベンチマーク数値はいずれも各社の自己申告値（self-reported）であり、第三者による独立検証は2026年6月時点で確認できていません。

Gemini Computer Useとは何か（もう少し詳しく）

Gemini APIの公式イメージ（Google AI for Developers）

出典: Google Gemini API 公式

Geminiに画面を見せて、人間と同じようにUIを操作させるのがComputer Useです。従来のAPI連携は、操作したいサービスがAPIを公開していることが前提でした。Computer Useは、APIがないWebサイトや業務システムでも、画面を見てマウス・キーボードを操作することでタスクを完了させます。つまり「人間がやっている画面操作そのもの」を自動化できるのが本質です。

具体的には、ユーザーの指示（例: 「この求人サイトで条件に合う案件を3件ブックマークして」）に対して、Geminiが現在の画面を解析し、「ここをクリック」「この欄に入力」といった操作を順番に提案・実行していきます。

提供形態は次の2系統です。

Gemini API 経由（Google AI Studio / Vertex AI）— 開発者が自前のアプリに組み込む
Gemini Enterprise Agent Platform 上のツール — 企業向けのエージェント基盤として利用

GoogleはBrowserbaseホストのデモ環境やGitHub上のリファレンス実装も公開しており、試しやすい状態が整っています。なお、ベースモデルそのものの性能や位置づけはGemini 3.5 Flashの解説記事、提供基盤の全体像はGemini Enterprise Agent Platformの解説も参考になります。

【重要】2.5 Computer Use と 3.5 Flash統合の違い（世代を区別する）

最初に押さえるべきは「世代の違い」です。 ネット上の解説の多くは2025年10月の第1世代（2.5）時点の記述のままで、2026年6月の最新仕様と食い違っているためです。

項目	第1世代: Gemini 2.5 Computer Use（2025年10月）	第2世代: Gemini 3.5 Flash統合（2026年6月24日）
提供形態	独立した専用モデル	本番モデルへのネイティブ組み込みツール
モデル名	`gemini-2.5-computer-use-preview-10-2025`（レガシー）	`gemini-3.5-flash`（推奨）／`gemini-3-flash-preview`
ベース	Gemini 2.5 Pro の視覚理解・推論	Gemini 3.5 Flash（最速・低コストの本番モデル）
対応環境	ブラウザ中心	ブラウザ・モバイル（Android）・デスクトップ
コンテキスト	128K	100万トークン（約8倍）
監査	—	操作理由を示す `intent` フィールドを追加

ポイントは、専用モデルを別途呼び出す必要がなくなり、普段使いの本番モデル（3.5 Flash）一つで画面操作までこなせるようになったことです。これにより、推論タスクと画面操作タスクの間でモデルを切り替えるルーティングが不要になり、開発がシンプルになりました。

現行の対応モデルは公式ドキュメントで以下のとおり案内されています。

gemini-3.5-flash（推奨）
gemini-3-flash-preview
gemini-2.5-computer-use-preview-10-2025（レガシー扱い）

仕組み：スクリーンショット→推論→操作のエージェントループ

Gemini API Cookbook（Google AI Studioの画面例）

出典: Gemini API Cookbook（GitHub）公式

Computer Useは「画面を見て→次の操作を考えて→実行して→また画面を見る」というループで動きます。 このサイクルを、タスクが完了するまで自動で繰り返すのが基本構造です。

送信: ユーザー指示＋現在のスクリーンショット＋直近の操作履歴＋URL等をモデルへ渡す
推論: モデルが次に取るべきUIアクションを提案する（3.5 Flashでは操作理由を示す intent フィールド付き）
実行: クライアント側（アプリ）が、提案されたクリックや入力を実際に実行する
再取得: 操作後の新しいスクリーンショットを取得し、再びモデルへ返す

この①〜④を繰り返し、ゴール（例: 予約完了、フォーム送信）に到達したら終了します。実装では、モデルが「推論」を担い、実際の画面操作はPlaywright などのブラウザ自動化ツールが担当する構成が一般的です。モデルは「どこを押すか」を決め、Playwrightが「実際に押す」役割分担と考えるとわかりやすいでしょう。

intent フィールドは第2世代の新機能で、各アクションに「なぜこの操作をするのか」というモデルの推論理由を付与します。これは操作の監査証跡（audit trail）として活用でき、後から「なぜAIがこの画面を操作したのか」を追跡しやすくなります。

Gemini Computer Useでできること

対応環境はブラウザ・モバイル・デスクトップの3つに広がり、それぞれで実行できる操作が用意されています。 第1世代がブラウザ中心だったのに対し、第2世代では操作対象が大きく拡張されました。

環境	主な操作	想定ユースケース
ブラウザ	クリック（左/右/中/ダブル/トリプル）、入力、ドラッグ＆ドロップ、スクロール、ホットキー、ナビゲーション、スクリーンショット取得	フォーム入力、価格調査、予約、Web上のデータ転記
モバイル（Android最適化）	アプリ起動、クリック、アプリ一覧取得、入力、ドラッグ＆ドロップ、長押し、キー押下、スクリーンショット	アプリ操作の自動テスト、モバイル業務フローの自動化
デスクトップ	ブラウザ同様の操作＋OSレベルのカーソルコマンド	複数アプリをまたぐシステム全体の自動化

代表的な実務シーンを挙げると、次のような作業が自動化の候補になります。

データ転記: 旧システムの画面から新システムの入力フォームへ転記する
定型予約・申込: 会議室・出張・各種サービスの予約フロー
Webリサーチ: 複数サイトを巡回して条件に合う情報を集める
QAテスト: WebアプリやAndroidアプリのUI操作テスト

なお、Google Chrome側で進行している「Gemini in Chrome」の自動ブラウズ（auto browse）は、Gemini 3のマルチモーダルで画像認識→類似品検索→カート追加などを行う別系統の機能です。API/エージェント基盤として提供されるComputer Useとは区別して理解してください。

ベンチマーク：他社トップ層と僅差（※自己申告値）

画面操作AIの定番指標「OSWorld-Verified」では、Gemini 3.5 Flashは他社トップ層と事実上拮抗しています。 ただし、これらはすべて各社が自社で測定・公表した値であり、独立した第三者検証は確認できていない点を前提に読んでください。

モデル	OSWorld-Verified（自己申告値）
GPT-5.5	78.7
Gemini 3.5 Flash	78.4
Claude Opus 4.7	78.0

トップ3が0.3〜0.7ポイント差に収まっており、スコアだけで優劣を決めるのは難しい状況です。参考までに、Gemini 3.5 Flashの一般性能としてはTerminal-Bench 2.1が76.2%、MCP Atlasが83.6%、マルチモーダル指標のCharXivが84.2%と公表されています。

速度面では、Googleは出力スループット約289トークン/秒、競合フロンティアモデル比で「約4倍速」と位置づけています。画面操作はループ回数が多くなるため、1ステップあたりの速度と単価が体感コストに直結します。 ここでの高速・低価格は、Computer Use用途では実利の大きい強みです。

料金：本体は安いが「画像トークン」で膨らみやすい

Gemini 3.5 Flash自体は競合より低単価ですが、Computer Useは毎ターン画面のスクリーンショットを送るため、画像入力トークンでコストが積み上がりやすい点に注意が必要です。

Gemini 3.5 FlashのAPI料金は、公式準拠の各種ソースで以下のとおりです（2026年時点・グローバルエンドポイント）。

区分	料金（100万トークンあたり）
入力	$1.50
出力	$9.00
キャッシュ入力	$0.15
非グローバルリージョン	入力 $1.65 / 出力 $9.90
バッチモード	標準価格の50%オフ（最大24時間ターンアラウンド）

ここで重要なのは2点です。

Computer Use固有の追加課金は、公式ドキュメント上では明示されていません（未確認）。 公式は一般のGemini API料金・レート制限ドキュメントを参照する形になっています。
スクリーンショットを毎ステップ送る構造上、画像入力トークンが嵩みます。 操作ステップ数が多いタスクほど、想定よりコストが膨らみやすいと考えておくべきです。

料金は2026年5月のI/O前後に改定された経緯があり、変動が早い領域です。本番設計に入る前に、必ず公式料金ページで最新を再確認してください。

使い方・始め方の流れ

出典: Browserbase 公式サイト

最短ルートは、Browserbaseデモで挙動を体感し、GitHubのリファレンス実装をベースにPlaywright連携を組むことです。 ゼロから組むより、公開されている実装を出発点にするほうが安全かつ速いです。

おおまかな導入ステップは次のとおりです。

環境準備: Google AI StudioまたはVertex AIでGemini APIを有効化し、APIキーを取得する
実行環境の隔離: 操作対象をサンドボックス化したVM/コンテナ内で動かす（公開プレビューでは必須級）
アクションハンドラ実装: モデルが返す操作（クリック・入力等）を、Playwright等で実際に実行する処理を書く
ループ構築: スクリーンショット送信→操作実行→再スクショのループを回す
安全制御の組み込み: safety_decision が require_confirmation を返したら、ユーザー承認を挟む（安全機構を必ず実装）

クライアント側でアクションハンドラを自前実装する必要がある点が、APIを叩くだけの一般的な生成AI利用とは異なります。エージェント開発の前提知識はAIエージェントとは何かの解説もあわせて確認しておくと理解が深まります。

安全機構と注意点：公開プレビューゆえの「やってはいけないこと」

Computer Useは画面を直接操作できる強力さの裏で、誤操作・不正操作のリスクが大きい機能です。 Googleも安全設計を前提とした利用を強く求めており、公開プレビュー段階では特に慎重な運用が必要です。

内蔵の安全判定（safety_decision）

操作の安全性を判定する仕組みとして、レスポンスに safety_decision フィールドが含まれます。値は allowed（許可）／require_confirmation（要確認）／blocked（ブロック）の3種類です。

金融取引、機微データの変更、コミュニケーション送信、アカウント作成、法的合意などを内蔵カテゴリとして分類
require_confirmation が返った場合、ユーザー承認を求める実装を入れることが公式の必須要件
カテゴリ単位でポリシーを上書き設定することも可能

プロンプトインジェクション対策

画面操作AIは、Webページ上に仕込まれた悪意ある指示（間接プロンプトインジェクション）の標的になりやすい特性があります。Geminiでは標的型の敵対的学習でリスクを軽減し、スクリーンショットスキャンによるインジェクション検知（オプション）を提供。間接プロンプトインジェクションを検知すると自動でタスクを停止します。報道（Search Engine Journal等）でも、AIエージェントを狙った攻撃が既に出ていることが指摘されています。

多層防御（defense-in-depth）

Googleは、以下を組み合わせる多層防御を推奨しています。

サンドボックス化: 操作を隔離されたVM/コンテナ内で実行
人間による確認: 重要操作はhuman-in-the-loopで承認を挟む
アクセス制御: 操作可能な範囲・権限を最小限に絞る

公開プレビューゆえの実務判断

機微データの変更・不可逆な意思決定（送金、契約締結など）には非推奨。 監督下での非クリティカルなタスクに留めるのが安全です。
本番の顧客データや実支出に組み込む前に、GA化されたか現在のステータスを必ず確認する。
エラーや脆弱性が残る前提で扱う。AIエージェント全般のリスク管理はAIエージェントのセキュリティガイドも参照してください。

Claude Computer Use・GPT系との違い

Claude Computer Useの公式イメージ（カーソルで画面を操作する図）

出典: Anthropic 公式

コスト効率・速度・モバイル対応では Gemini 3.5 Flash が優位、外部ツール連携の広さとコーディング統合では Claude が強い、というすみ分けになります。スコア（OSWorld）はトップ層で僅差のため、選定は「価格×速度×エコシステム」で判断するのが現実的です。

項目	Gemini Computer Use（3.5 Flash）	Claude Computer Use
提供元	Google（DeepMind）	Anthropic
ベースモデル	Gemini 3.5 Flash（高速・低コスト本番モデル）	Claude Sonnet 4.6 / Opus 4.7・4.8
OSWorld（自己申告）	78.4	Sonnet 4.6 = 72.7 ／ Opus 4.7 = 78.0
API料金（入力/出力, 100万トークン）	$1.50 / $9.00	Sonnet 4.6: $3 / $15 ／ Opus 4.7・4.8: $5 / $25 ／ Haiku 4.5: $1 / $5
対応環境	ブラウザ・モバイル（Android）・デスクトップ	ブラウザ・デスクトップ中心（仮想デスクトップ操作）
特徴	100万トークン文脈、`intent` 監査、約289 tok/s の高速・低価格	MCPで6,000+アプリ連携、Claude Code連携、エコシステムの広さ
ステータス	公開プレビュー（2026/6/24〜）	提供中（モデル世代ごとに更新）

選び分けの目安は次のとおりです。

大量の画面操作をできるだけ安く・速く回したい／Android操作が必要 → Gemini Computer Use
多数の外部アプリ連携（MCP）やコーディング統合を重視／本番実績のある提供中サービスが欲しい → Claude Computer Use

より詳しい比較はClaude Computer Useの解説、両者の総合的な違いはClaudeとGeminiの比較記事で掘り下げています。GPT-5.5はOSWorldでわずかに首位（78.7）ですが、用途・価格・連携環境を含めた総合判断が必要です。

向いている人 / 向いていない人

新しさと低コストを活かせるかどうかが分かれ目です。 公開プレビュー段階という前提を踏まえた向き不向きを整理します。

向いている人・組織

APIのない業務システムやWebサイトの操作を自動化したい企業・チーム
大量の画面操作を低コスト・高速に回したい（リサーチ、データ転記、定型入力など）
Android含むモバイルアプリの操作自動化／UIテストを行いたい
サンドボックス化や人間承認フローを自前で設計・実装できるエンジニアリング体制がある
まずは非クリティカルな業務でPoC（実証実験）から始められる

向いていない人・組織

送金・契約締結など不可逆で機微な操作を、人手の確認なしに自動化したい（公開プレビューでは非推奨）
顧客データや実支出に、検証なしですぐ本番投入したい
ノーコードで完結させたい（クライアント側のアクションハンドラ実装が前提）
ベンチマークの自己申告値を鵜呑みにして、独自検証なしで採用を決めたい
安定したGA（一般提供）と確定した料金体系がないと導入できない

よくある質問（FAQ）

Q. Gemini Computer Useは無料で使えますか？
A. 機能利用自体に専用の無料枠が公式に明示されているわけではなく、Gemini API（Gemini 3.5 Flash）の従量課金が基本です。入力 $1.50／出力 $9.00（100万トークン、グローバルエンドポイント）が目安で、Computer Useは画面画像を毎ステップ送るためトークン消費が増えやすい点に注意してください。最新の料金は公式で必ず確認しましょう。

Q. 2.5 Computer Useとどう違いますか？
A. 2.5は独立した専用モデルでブラウザ中心でしたが、3.5 Flash統合版は本番モデルの組み込みツールになり、モバイル・デスクトップに対応、コンテキストが100万トークンへ拡大、操作理由を示す intent フィールドが加わりました。

Q. 本番の業務システムにすぐ使えますか？
A. 2026年6月時点では公開プレビューであり、機微データの変更や不可逆な意思決定には非推奨です。サンドボックス化・人間による承認・アクセス制御を組み合わせ、まずは非クリティカルなタスクで検証することが推奨されます。

Q. プロンプトインジェクションは大丈夫ですか？
A. 敵対的学習による軽減やスクリーンショットスキャンによる検知（オプション）が用意され、間接プロンプトインジェクションを検知すると自動でタスクを停止します。ただし万能ではないため、多層防御を前提に設計してください。

Q. Chromeの自動ブラウズと同じものですか？
A. 別物です。Chromeの「Gemini in Chrome」自動ブラウズはブラウザ機能側の系統で、本記事のComputer UseはGemini API／エージェント基盤として提供される開発者向けの機能です。

まとめ

Gemini Computer Useは、Gemini 3.5 Flashが画面を見てブラウザ・モバイル・デスクトップを自律操作する機能で、2026年6月24日に専用モデルから本番モデルへの組み込みツールとして公開プレビュー化されました。100万トークン文脈・モバイル対応・intent 監査・高速かつ低単価という強みを持ち、OSWorldでは他社トップ層と僅差です。

一方で、これは公開プレビューであり、料金体系や対応範囲は変動しうること、機微データや不可逆な操作には非推奨であること、スクリーンショット送信でコストが膨らみやすいことを理解した上で、サンドボックス化・人間承認・アクセス制御を組み合わせて使うのが現実的です。コストと速度、Android対応を重視するならGemini、外部連携の広さやコーディング統合を重視するならClaude、という軸で選び分けるとよいでしょう。導入を検討する際は、必ず公式の最新情報を確認してから判断してください。