ベンチマーク

GPT-5.4 Thinking|人間超え自律AI検証

この記事の結論

GPT-5.4 ThinkingがOSWorldで人間超え75%を記録。デスクトップ自律操作の実力を検証。

AIがデスクトップを人間より正確に操作できる——この一文が、もはやSFではなく測定可能な事実になりました。

OpenAIが2026年3月5日にリリースしたGPT-5.4 Thinkingは、OSWorld-Verifiedベンチマークで75.0%のスコアを記録。人間の専門家テスターが達成した72.4%を上回り、「AIが人間以上にPCを操作できる」ことを数値で証明しました。

この記事では、この結果がAIエージェント開発にとって何を意味するのかを、技術的な視点で検証します。

OSWorldベンチマークとは何か

項目 内容
測定対象 スクリーンショット認識 + キーボード/マウス操作
タスク例 ファイル操作、ブラウザナビゲーション、フォーム入力
評価方法 タスク完了率(成功/失敗の二値判定)
人間ベースライン 72.4%(専門テスター)

このベンチマークが重要なのは、「テキスト生成」ではなく「現実世界のコンピュータ操作」を測定している点です。

GPT-5.4のモデルバリエーション

バリアント 特徴 コンテキスト 用途
GPT-5.4 標準版 1Mトークン 汎用推論
GPT-5.4 Thinking 対話型推論強化 1Mトークン 複雑な推論・デスクトップ操作
GPT-5.4 Pro 最高性能 1Mトークン 研究・高難度タスク
GPT-5.4 Mini 軽量版 1Mトークン コスト重視の運用
GPT-5.4 Nano エッジ向け 128Kトークン モバイル・組み込み

人間超えの75% — 何が変わったのか

1. スクリーンショットの理解力が飛躍的に向上

従来のモデルは、UI要素の位置認識が不安定でした。GPT-5.4 Thinkingは、スクリーンショットからUI要素を正確に識別し、座標レベルで正確な操作を行います。

2. マルチステップ操作の安定性

「ファイルを開く→特定のセルを選択→データを入力→保存する」のような連続操作で、途中のステップで失敗してリカバリーできないのが従来の問題でした。GPT-5.4 Thinkingは、操作の結果をスクリーンショットで確認し、失敗した場合は代替手段を試みます。

3. コンテキスト保持

1Mトークンのコンテキストウィンドウにより、長時間の操作セッションでも過去の操作履歴を失いません。

エージェント開発者が知るべき制約

75%という数字は印象的ですが、冷静に見るべき点があります。

❌ 「人間超え」=「完璧」ではない
⭕ 25%のタスクは依然として失敗。特に、複雑なドラッグ&ドロップ操作や動的UIへの対応が弱い

❌ ベンチマーク環境と実環境は異なる
⭕ OSWorldは標準的なデスクトップ環境での測定。カスタムアプリや日本語UIでの精度は別途検証が必要

❌ レイテンシの問題
⭕ 各操作にスクリーンショットの取得・解析が必要なため、人間より正確だが遅い

❌ APIコスト
⭕ スクリーンショットの画像入力は通常のテキスト入力よりトークンコストが高い。大量の操作を自動化する場合はコスト計算が必須

実務での活用が期待される領域

領域 具体的なタスク 期待される効果
RPA代替 レガシーシステムの操作自動化 API非対応のシステムも自動化可能
QAテスト UIテストの自動実行 テストケース作成・実行を自律化
データ入力 Webフォーム・スプレッドシートへの入力 定型作業の完全自動化
ITサポート ユーザーのPC問題をリモートで解決 サポートコスト削減

開発者が今週やるべきこと

  1. 今日: OpenAI APIでGPT-5.4 Thinkingの画像入力を試す。自社UIのスクリーンショットを送って認識精度を確認
  2. 今週中: 社内の「APIがない旧システム」を1つ選び、スクリーンショット+操作指示でPoC
  3. 今月中: 従来のRPAツールとのコスト・精度比較を行い、移行判断の材料を揃える

参考・出典


この記事はAIgent Lab編集部がお届けしました。

Need help moving from reading to rollout?

この記事を読んで導入イメージが固まってきた方へ

Uravationでは、AIエージェントの要件整理、PoC設計、社内導入、研修まで一気通貫で支援しています。

この記事をシェア

X Facebook LINE

※ 本記事の情報は2026年4月時点のものです。サービスの料金・仕様は変更される可能性があります。最新情報は各サービスの公式サイトをご確認ください。

関連記事