ベンチマーク

GPT-5.4 vs Claude|Computer Use選定ガイド

GPT-5.4 vs Claude|Computer Use選定ガイド

この記事の結論

GPT-5.4とClaude Computer Useはどちらを選ぶべきか。OSWorldスコア、API実装コード、コスト、開発体験を比較し、用途別の選定基準を解説。

「GPT-5.4かClaudeか、どちらのComputer Useが実務で使えるのか?」

この問いに明確に答えられる記事がまだ少ない。OSWorldスコアや「AIがPCを操作できる」という表現は何度も目にしたが、実際に開発者がどちらを選ぶべきかの判断軸が整理されていない。

正直に言う。両者の得意領域はかなり異なる。用途を間違えると、自動化が途中で詰まって手動介入が増えるだけだ。この記事では2026年4月時点の両者の実力を、実装の観点から比較する。

スペック比較

項目 GPT-5.4 Computer Use Claude 3.7 Computer Use
提供形態 Responses API(tool type: computer_use) Messages API(tool type: computer_use_20250124)
OSWorldスコア 75.0%(人間72.4%超え) 公開ベンチマークで最大70%台
コンテキスト上限 1,050,000トークン(入力922K) 200,000トークン
入力価格(1Mトークン) $2.50(272K超は$5) $3.00
スクリーンショット方式 ビジョン入力(base64) ビジョン入力(base64)
アクションの種類 click, type, scroll, key, screenshot mouse_move, left_click, type, key, screenshot, drag
リリース日 2026年3月11日 2024年10月(Computer Use beta)

※価格・スペックの最終確認: 2026-04-07

実装で比較する

GPT-5.4 Computer Useの実装パターン

GPT-5.4のComputer UseはResponses APIを使う。Chat Completions APIとは別エンドポイントになるため、既存コードの流用時は注意が必要だ。


# 動作環境: Python 3.11+, openai>=2.30.0
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。

import openai
import pyautogui
import base64
from PIL import ImageGrab

client = openai.OpenAI()

def capture_screenshot_base64() -> str:
    """現在の画面をキャプチャしてbase64文字列で返す"""
    img = ImageGrab.grab()
    import io
    buf = io.BytesIO()
    img.save(buf, format="PNG")
    return base64.b64encode(buf.getvalue()).decode()

def run_computer_use_loop(task: str, max_steps: int = 10):
    """GPT-5.4 Computer Useによる自動化ループ"""
    messages = [{"role": "user", "content": task}]

    for step in range(max_steps):
        screenshot_b64 = capture_screenshot_base64()

        # スクリーンショットをメッセージに追加
        messages.append({
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/png;base64,{screenshot_b64}"}
                }
            ]
        })

        response = client.responses.create(
            model="gpt-5.4",
            tools=[{"type": "computer_use"}],
            messages=messages,
            reasoning={"effort": "medium"}  # 速度と精度のバランス
        )

        # アクションを実行
        for tool_call in response.tool_calls or []:
            action = tool_call.function.arguments
            execute_action(action)

        if response.stop_reason == "end_turn":
            break

    return response

def execute_action(action: dict):
    """モデルが指定したアクションを実行する"""
    action_type = action.get("type")

    if action_type == "click":
        x, y = action["x"], action["y"]
        pyautogui.click(x, y)
    elif action_type == "type":
        pyautogui.typewrite(action["text"], interval=0.05)
    elif action_type == "scroll":
        pyautogui.scroll(action.get("delta", 3))
    elif action_type == "key":
        pyautogui.hotkey(*action["keys"])

ポイント:

  • reasoning.effortパラメータで推論深度を調整できる(none/low/medium/high/xhigh)
  • Responses APIはclient.responses.create()を使う。chat.completions.create()ではない
  • 272Kトークンを超えると入力コストが倍になる。長時間セッションは注意

Claude Computer Useの実装パターン

Claudeは2024年10月から提供されており、コミュニティの実績が蓄積されている。Anthropicが公式のコンピューター使用デモをGitHubで公開しているため、参考コードが豊富だ。


# 動作環境: Python 3.11+, anthropic>=0.40.0
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。

import anthropic
import pyautogui
import base64
from PIL import ImageGrab
import io

client = anthropic.Anthropic()

def capture_screenshot() -> str:
    """スクリーンショットをbase64エンコードして返す"""
    img = ImageGrab.grab()
    buf = io.BytesIO()
    img.save(buf, format="PNG")
    return base64.standard_b64encode(buf.getvalue()).decode("utf-8")

def run_claude_computer_use(task: str, max_iterations: int = 10):
    """Claude Computer Useによる自動化ループ"""
    messages = [{"role": "user", "content": task}]

    for _ in range(max_iterations):
        response = client.messages.create(
            model="claude-3-7-sonnet-20250219",
            max_tokens=4096,
            tools=[
                {
                    "type": "computer_use_20250124",
                    "name": "computer",
                    "display_width_px": 1920,
                    "display_height_px": 1080,
                    "display_number": 1,
                }
            ],
            messages=messages,
            betas=["computer-use-2025-01-24"],
        )

        if response.stop_reason == "end_turn":
            break

        # ツール呼び出しを処理
        tool_results = []
        for block in response.content:
            if block.type == "tool_use" and block.name == "computer":
                result = execute_claude_action(block.input)
                tool_results.append({
                    "type": "tool_result",
                    "tool_use_id": block.id,
                    "content": result
                })

        # 結果をメッセージに追加してループ継続
        messages.append({"role": "assistant", "content": response.content})
        messages.append({"role": "user", "content": tool_results})

    return response

def execute_claude_action(action: dict) -> list:
    """Claudeのアクション指示を実行し、スクリーンショットを返す"""
    action_type = action.get("action")

    if action_type == "left_click":
        pyautogui.click(action["coordinate"][0], action["coordinate"][1])
    elif action_type == "type":
        pyautogui.typewrite(action["text"], interval=0.05)
    elif action_type == "key":
        pyautogui.hotkey(*action["key"].split("+"))
    elif action_type == "mouse_move":
        pyautogui.moveTo(action["coordinate"][0], action["coordinate"][1])

    # アクション実行後のスクリーンショットを返す
    screenshot = capture_screenshot()
    return [{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": screenshot}}]

ポイント:

  • betas=["computer-use-2025-01-24"]が必須。忘れるとInvalidRequestErrorが出る
  • アクション後に必ずスクリーンショットを返す設計になっている(GPT-5.4と違いモデル側がスクショを要求する)
  • ディスプレイ解像度をdisplay_width_px/display_height_pxで正確に指定すること

3つの観点で比較する

観点1: 精度と信頼性

OSWorldベンチマーク(デスクトップタスクの標準評価)でGPT-5.4は75.0%、人間の72.4%を上回った。これは業界で初めて人間超えを達成したスコアとして注目された。

ただし重要な注意点がある。このスコアはOSWorldの検証セット全体の平均値だ。特定の業務(例: 複雑なスプレッドシート操作や特定の業務アプリ)に絞ると、性能は大きく異なる。Claudeは2024年10月から本番運用の実績があり、コミュニティの知見(エラーパターン、回避策)が蓄積されている。GPT-5.4はベンチマーク上の数字が高いが、まだ実務での長期実績は薄い。

観点2: コストとスピード

10〜20スクリーンショットの標準的な自動化セッションで、GPT-5.4は$0.10〜$0.50程度のコストがかかる(標準レート $10/$30 per 1M tokens)。高精度が必要なタスクにはreasoning.effort: "high"を使うとコストが3〜5倍になる点に注意。

Claudeはclaude-3-7-sonnet利用時に$3.00/$15.00 per 1M tokensで、短時間のタスクではGPT-5.4とほぼ同コスト帯だ。ただしClaude は200Kトークン制限があるため、長時間のセッション(多数のスクリーンショット蓄積)ではコンテキストウィンドウ管理が必要になる。

観点3: 開発体験とエコシステム

ClaudeはAnthropic公式のコンピューター使用デモリポジトリ(computer-use-demo)が公開されており、Dockerベースの安全な実行環境がすぐに使える。コミュニティの事例・ブログ記事も豊富だ。

GPT-5.4のComputer UseはResponses API経由で提供されるが、Responses API自体が2026年3月に本格展開されたばかりで、LangChain等のサードパーティSDKのサポートがまだ追いついていないケースがある。Chat Completions APIとの使い分けが必要な点も初期の混乱要因になる。

【要注意】よくある実装ミスと回避策

ミス1: 確認なしで破壊的操作を実行する

❌ ファイル削除・フォーム送信を自動実行

⭕ 確認ゲート(human-in-the-loop)を設け、重要な操作前にユーザー承認を要求する

理由: Computer Useエージェントは「UIを通じた操作なら何でもできる」ため、意図しない不可逆操作が起きやすい。最小権限アカウントを使い、破壊的操作には必ず確認を挟むこと。

ミス2: スクリーンショットを毎ステップ送り続けてコンテキストを圧迫する

❌ 全ステップのスクリーンショットをそのまま積み続ける

⭕ 直近2〜3枚のスクリーンショットのみ保持し、古い画像はメッセージ履歴から削除する

理由: スクリーンショット1枚は数百KBのbase64になる。10ステップで数MBになり、コンテキスト消費とコスト両方が急増する。

ミス3: エラーリカバリーを実装しない

❌ モデルが「クリックした」と言っても実際にクリックできたか確認しない

⭕ アクション実行後のスクリーンショットをモデルに返し、「期待する画面になったか」を確認させるループを組む

理由: UIの描画遅延、ポップアップの突然の出現など、実世界の操作は不確定要素が多い。確認ループなしでは途中で静かに詰まる。

ミス4: Responses APIとChat Completions APIを混同する(GPT-5.4固有)

client.chat.completions.create()でcomputer_useツールを指定する

client.responses.create()を使う

理由: GPT-5.4のComputer UseはResponses APIでのみ利用可能。Chat Completions APIには同機能がない。

私の結論

正直、どちらが「勝つ」という問いはあまり意味がない。選ぶべき基準はシンプルだ。

「今すぐ本番運用を始めたい」「コミュニティの知見を使いたい」ならClaude Computer Use。2024年10月からのベータ期間で実務事例が積み上がっており、Anthropic公式デモ環境も充実している。

「OSWorldトップクラスの精度が必要」「OpenAIエコシステムに統合したい」「1Mトークンの長文コンテキストを活用したい」ならGPT-5.4。ただし、Responses APIの学習コストとエコシステムの成熟度は考慮すること。

まだ明らかになっていない点もある。GPT-5.4のComputer Useは2026年3月に登場したばかりで、長期運用での信頼性データが蓄積されていない。筆者も判断がつかない部分だ。半年後には状況が変わっている可能性が高い。

AIエージェントの基本概念や構築パターンについては、AIエージェント構築完全ガイドで体系的にまとめています。

参考・出典

あわせて読みたい:

AIエージェントの設計・導入支援については、Uravation(株式会社Uravation)のお問い合わせフォームからご相談ください。

この記事はAIgent Lab編集部がお届けしました。

Need help moving from reading to rollout?

この記事を読んで導入イメージが固まってきた方へ

Uravationでは、AIエージェントの要件整理、PoC設計、社内導入、研修まで一気通貫で支援しています。

この記事をシェア

X Facebook LINE

※ 本記事の情報は2026年4月時点のものです。サービスの料金・仕様は変更される可能性があります。最新情報は各サービスの公式サイトをご確認ください。

関連記事