「AIに画面操作を任せたい。でも、どのサービスを選べばいいのか分からない」
正直、この悩みは今いちばんホットだと思う。2026年3月時点で、AnthropicのClaude Computer Use、OpenAIのOperator(現ChatGPT Agent Mode)、GoogleのProject Marinerという3つの選択肢がある。いずれも「AIがマウスとキーボードを操作して、人間の代わりにPCを使う」という同じゴールを目指しているが、アプローチはかなり違う。
この記事では、この3つを実際の対応環境・ベンチマーク・料金・API仕様の4軸で比較する。「結局どれを使えばいいの?」に対する答えを、できるだけ具体的に出していきたい。
スペック比較
| 項目 | Claude Computer Use | OpenAI Operator | Google Mariner |
|---|---|---|---|
| 提供元 | Anthropic | OpenAI | Google DeepMind |
| 基盤モデル | Claude Opus 4.6 | GPT-5.4(CUAモデル) | Gemini 2.5 Pro |
| 操作対象 | デスクトップ全般(Web+アプリ+CLI) | Webブラウザ(仮想環境) | Chromeブラウザ |
| 動作環境 | Linux Docker / Windows / macOS | OpenAIサーバー上の仮想ブラウザ | Chrome拡張機能 |
| OSWorldスコア | 72.7% | 75.0%(人間超え) | 非公開 |
| 料金体系 | APIトークン課金 | ChatGPT Plus $20/月〜 | AI Ultra加入者限定 |
| 開発者API | あり(Computer Use API) | あり(Agents SDK + CUA) | 開発中(Gemini API統合予定) |
| ステータス | パブリックベータ | ChatGPT統合済み | リサーチプロトタイプ |
ぱっと見で分かるのは、3つとも得意領域がはっきり分かれているということだ。順番に深掘りしていく。
操作範囲で比較する
最も大きな違いは「何を操作できるか」にある。
Claude Computer Use:OS全体を操作できる唯一の選択肢
Claude Computer Useは、スクリーンショットを解析してマウスカーソルを動かし、キーボード入力を行う。Webブラウザだけでなく、デスクトップアプリケーション、ターミナル、ファイルマネージャまで操作対象になる。APIを使えば、Dockerコンテナ内のLinux環境でヘッドレス実行も可能だ。
# Claude Computer Use API の基本的な呼び出し例
# 動作環境: Python 3.11+, anthropic>=0.40.0
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-sonnet-4-20250514",
max_tokens=4096,
tools=[{
"type": "computer_20250124",
"name": "computer",
"display_width_px": 1024,
"display_height_px": 768
}],
messages=[{
"role": "user",
"content": "Googleで'AI agent benchmark 2026'を検索して、最初の結果のタイトルを教えて"
}]
)
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
強み: デスクトップアプリ(Excel、Slack、VS Code等)を直接操作できるのはClaude Computer Useだけ。API連携が存在しないレガシーソフトを自動化したい場合、現時点で最も有力な選択肢になる。
OpenAI Operator:Web操作に特化した完成度
Operatorは、OpenAIのサーバー上に用意された仮想ブラウザで動作する。ユーザーのPCにはインストール不要で、ChatGPTの画面からそのまま使える。ECサイトでの注文、フォーム入力、予約操作などWebベースのタスクに強い。
2026年3月のGPT-5.4アップデートで、CUA(Computer-Using Agent)モデルがさらに強化された。OSWorldベンチマークで75.0%を記録し、人間の専門家(72.4%)を上回っている。
強み: セットアップ不要。ChatGPTのサブスクリプションがあれば今すぐ使える。ただしWeb操作限定なので、デスクトップアプリには手が届かない。
Google Mariner:Chromeに溶け込むブラウジングエージェント
MarinerはChrome拡張機能として動作する。ユーザーの実際のブラウザ環境で、ログイン済みのセッションをそのまま利用できるのがポイント。「Observe-Plan-Act」サイクルでWebページを理解し、複数タブを同時に操作できる。
強み: ユーザーの既存ブラウザ環境(ログイン状態、拡張機能、ブックマーク)をそのまま活用できる。OperatorのようにOpenAIの仮想環境にログインし直す必要がない。
ベンチマークと性能で比較する
OSWorldは、AI がUbuntu・Windows・macOS上で実際のアプリケーションを操作するタスクをどれだけ正確にこなせるかを測定するベンチマークだ。人間の専門家のスコアは72.4%。
| モデル | OSWorldスコア | 備考 |
|---|---|---|
| GPT-5.4(OpenAI) | 75.0%(自己申告、独立検証待ち) | 2026年3月時点リーダー |
| Claude Opus 4.6(Anthropic) | 72.7% | 人間とほぼ同等 |
| Gemini 2.5 Pro(Google) | 非公開 | OSWorld-Gでのテスト結果は未公表 |
| 人間の専門家 | 72.4% | ベースライン |
ベンチマーク上はGPT-5.4がリードしている。ただし、GPT-5.4のスコアはOpenAIの自己申告値で、OSWorld研究チームによる独立検証は2026年3月時点で完了していない点には注意が必要だ。ベンチマークスコアだけで「実用性能」は測れない。
たとえばOperatorはWeb操作に限定されているため、OSWorldのデスクトップアプリタスク(ファイル操作、Officeアプリ操作)ではCUAモデルの汎用スコアとOperator製品の実力が一致しない可能性がある。Claude Computer UseはOS全体を操作対象にしているため、実際のデスクトップ自動化ではベンチマーク以上のパフォーマンスを発揮する場面がある。
一方で、筆者もまだ判断がつかない部分がある。MarinerのOSWorldスコアが未公開なので、3者を完全に同じ土俵で比較するのは現時点では難しい。
料金体系で比較する
3つのサービスで料金の考え方がまったく異なる。ここは開発者にとって判断基準になるポイントだ。
| サービス | 料金体系 | 月額目安 | API利用 |
|---|---|---|---|
| Claude Computer Use | APIトークン従量課金 | 使用量次第(Opus: $5/$25 per MTok) | ○ 完全対応 |
| OpenAI Operator | ChatGPTサブスクリプション | Plus $20/月〜 Pro $200/月 | ○ Agents SDK |
| Google Mariner | AI Ultra加入限定 | $250/月(Google One AI Ultra) | △ Gemini API統合開発中 |
料金情報の最終確認: 2026-03-17
コスト感の具体例
Claude Computer Useの場合、1回のブラウザ操作タスク(検索→結果取得→情報抽出)で概算3,000〜8,000トークンを消費する。Opus 4.6の料金(入力$5/MTok、出力$25/MTok)で計算すると、1タスクあたり$0.02〜$0.10程度。プロンプトキャッシュを活用すれば70〜90%のコスト削減が可能だ。
OperatorはChatGPTサブスクリプション内で利用でき、Proプランでは実質無制限に近い使い方が可能。1回のタスクで5〜30分の複雑な処理を自律的に実行するため、API課金との単純比較は難しい。
要するに、大量の定型タスクを自動化するならClaude Computer UseのAPI課金が安くつき、月に数十回の複雑なWebタスクならOperatorのサブスクが手軽だ。
開発者向けAPIで比較する
自社プロダクトやワークフローに組み込むなら、APIの充実度が決め手になる。
Claude Computer Use API
Anthropic Messages APIのtoolsパラメータにcomputer_20250124を指定するだけで使える。スクリーンショット取得→アクション実行のループを自分で制御できるため、カスタマイズ性が高い。
OpenAI Agents SDK + CUA
OpenAI Agents SDKでは、Handoffs(エージェント間のタスク委譲)やGuardrails(安全制御)が組み込まれている。CUAモデルをSDK経由で呼び出し、ブラウザ操作を自動化できる。
# OpenAI Agents SDK でのCUA利用イメージ
# 動作環境: Python 3.11+, openai-agents>=0.1.0
from agents import Agent, Runner
agent = Agent(
name="web_automation",
instructions="ユーザーの指示に従ってWebブラウザを操作してください",
model="computer-use-preview",
tools=["computer"]
)
result = Runner.run_sync(agent, "楽天トラベルで東京のホテルを検索して、最安値の3件を教えて")
print(result.final_output)
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
Google Mariner / Gemini API
現時点でMarinerの機能はGemini APIに統合途中だ。2026年Q2にリリース予定の「Mariner Studio」(ビジュアルタスクフロービルダー)が開発者向け本格対応の第一弾になる見込み。Q4にはサードパーティのワークフローを売買できるエージェントマーケットプレイスも計画されている。
現状でブラウザ自動化をAPIから使いたいなら、Claude Computer UseかOpenAI Agents SDKの二択だ。
よくある誤解
「Operatorならどんなサイトでも自動操作できる」→ そうでもない
OperatorはOpenAIの仮想ブラウザで動作するため、二段階認証やCAPTCHAが必要なサイトではユーザーの手動介入が求められる。また、ログイン情報はOpenAI側のサーバーを経由するため、セキュリティポリシーが厳しい企業では導入ハードルが高い。
「Claude Computer Useは遅い」→ タスク次第
スクリーンショット解析ベースのため、1アクションごとにAPI往復が発生する。単純なクリック操作では確かにオーバーヘッドがある。しかし、複数アプリを横断する複雑なタスク(ブラウザで情報収集→Excelに転記→メール送信)ではClaude Computer Useのほうが総合的に速い場合もある。
「MarinerはただのChrome拡張でしょ?」→ 侮れない
ユーザーのログイン済みセッションをそのまま使えるのは、実はかなり大きなアドバンテージだ。Operatorで毎回ログインし直す手間がない。複数タブの同時操作やワークフローの学習・再実行にも対応しており、日常のブラウジング自動化では最も摩擦が少ない。
筆者のおすすめ
正直に言うと、「どれが最強」というよりユースケースで選ぶべきだ。
デスクトップアプリを含む業務自動化がしたいなら → Claude Computer Use
API連携がないレガシーソフトの操作、複数アプリ横断のワークフロー構築に唯一対応。開発者向け。セットアップのハードルはあるが、自由度は圧倒的に高い。
今すぐWeb操作を自動化したいなら → OpenAI Operator
ChatGPTのサブスクリプションだけで使える手軽さが最大の武器。ECサイトでの買い物、予約、情報収集など日常のWebタスクに最適。APIの成熟度も高い。
ログイン済みの自分のブラウザ環境で動かしたいなら → Google Mariner
Chrome拡張として動作するため、既存のログインセッションや拡張機能がそのまま使える。ただし米国限定・AI Ultra加入者限定で、開発者APIも未成熟。本格投入は2026年後半以降になりそうだ。
今後の展望
3社とも急速に進化している。注目すべきロードマップをまとめておく。
- OpenAI: Assistants APIが2026年8月26日に廃止予定。Responses API + Agents SDKへの移行が進む。CUAモデルの精度向上も継続
- Anthropic: MCP(Model Context Protocol)との統合で、外部ツール連携がさらに拡充。Agent Skillsによるモジュール化も進行中
- Google: Mariner Studio(Q2)、クロスデバイス同期(Q3)、エージェントマーケットプレイス(Q4)と2026年後半にロードマップが集中
この分野はまだ発展途上だ。3社が競い合うことで、半年後にはいまと全然違う景色になっている可能性が高い。定期的にキャッチアップしておくことをおすすめする。
参考・出典
- Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku — Anthropic(参照日: 2026-03-17)
- Introducing Operator — OpenAI(参照日: 2026-03-17)
- Project Mariner — Google DeepMind(参照日: 2026-03-17)
- OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments — OSWorld(参照日: 2026-03-17)
- ChatGPT Agent — Help Center — OpenAI(参照日: 2026-03-17)
- Claude API Pricing — Anthropic(参照日: 2026-03-17)
まとめ
PC操作AIエージェントは「誰が勝つか」ではなく「何に使うか」で選ぶ時代に入っている。
- 今日やること: まずはOperator(ChatGPT Agent Mode)で簡単なWeb操作を1つ試してみる。Plus加入者なら追加コスト不要で始められる
- 今週中: 自動化したい業務タスクをリストアップして、「Web完結か、デスクトップアプリも必要か」を整理する
- 今月中: デスクトップアプリ操作が必要なら、Claude Computer Use APIのDocker環境をセットアップしてPoCを実施する
あわせて読みたい:
- A2Aプロトコルとは?MCPとの違いとマルチエージェント連携の新常識 — エージェント間通信の標準プロトコルを解説
- AI開発エージェント4強比較|Devin・Codex・Claude・Cursor — コーディング特化エージェントの選び方
この記事はAIgent Lab編集部がお届けしました。
ご質問・ご相談は お問い合わせフォーム からお気軽にどうぞ。