ベンチマーク

GPT-5.4 Thinking完全解説|100万トークン対応フラッグシップ

GPT-5.4 Thinking完全解説|100万トークン対応フラッグシップ

この記事の結論

GPT-5.4 Thinkingとは?100万トークン、ネイティブPC操作、思考の可視化など5機能を解説。mini/Proとの使い分け、API料金、Claude Opus 4.6・Gemini 3.1 Proとの性能比較まで。

「GPT-5.4とGPT-5.4 Thinkingって何が違うの?」「100万トークンってどんな規模?」

2026年3月5日、OpenAIがGPT-5.4を正式リリースした直後から、この手の質問が開発者コミュニティで急増した。GPT-5.4はOpenAIが「これまでで最も高性能かつ効率的なフラッグシップモデル」と位置づけるモデルだが、正直なところ、何がどう変わったのかがわかりにくい。バージョン番号が微増しただけに見えて、中身は別物に近い。

この記事では、GPT-5.4 Thinkingの核心機能を5つの問いに答える形で解説する。API料金の実態、競合モデルとの比較、そしてminiとの使い分けまで、必要なことは全部ここに書いた。

そもそもGPT-5.4 Thinkingとは何か

GPT-5.4は、GPT-5.3-Codexの業界トップクラスのコーディング能力を取り込みながら、推論・ツール連携・エージェント型ワークフローを一つのモデルに統合したものだ。

「Thinking」というサフィックスは、ChatGPT上でのユーザー向け呼称であり、モデルが思考プロセスを段階的に開示しながら問題を解く機能を指す。API上では gpt-5.4、ChatGPT上では「GPT-5.4 Thinking」という名称で提供されている。5つの思考強度レベルが設定可能で、複雑な問題ほど深く推論する。

GPT-5.2と比較して注目すべき変化が2点ある。まず、虚偽情報の生成率が33%低下した。次に、全体的な回答精度が18%向上した。「言葉を返す」だけでなく「正確に知識を引き出す」という方向への進化だ。

何が新しいのか — 5つの核心機能

1. 100万トークン(正確には105万トークン)のコンテキストウィンドウ

GPT-5.4は最大1,050,000トークンの入力と128,000トークンの出力に対応する。これがどういう規模感かというと、Pythonで書かれた中規模Webアプリ(約10万行)のコードベース全体を、1リクエストで丸ごと読み込める量だ。

ただし、使う際に知っておくべき注意点がある。272Kトークンを超えると料金が倍になる。詳細はAPIコスト比較の節で説明する。

2. ネイティブPC操作(Computer Use)

スクリーンショットを解釈し、マウスとキーボードを操作してアプリを動かす機能が標準搭載された。OSWorldベンチマークでGPT-5.4は75.0%を達成し、人間の専門家ベースライン(72.4%)を上回った。PC上でのタスク自動化ツールとして使える最初の汎用フラッグシップモデルだ。

3. 思考プロセスのリアルタイム可視化

GPT-5.4 Thinkingは「思考の計画」を先出しする。モデルが回答を生成する前に、どんなアプローチをとるかを示し、途中で方向を変えることができる。複雑なタスクでの「意図しない方向への暴走」を減らす仕組みだ。

4. ツール検索(Tool Search)

GPT-5.4はウェブ検索において「複数ラウンドにわたって粘り強く検索を続け、最も関連性の高い情報源を特定する」能力が向上した。情報量の多いリサーチ型タスクで特に効果が出る。

5. GPT-5.3-Codexの能力の統合

SWE-bench Proで57.7%を記録。コード生成・デバッグ・コードベースのナビゲーションの能力が、単体のモデルで統合されている。

具体的に何ができるようになるのか

モデルのスペックを業務にどう当てはめるかが、実際の判断に迷う部分だ。以下に3つの典型的なユースケースを示す。

ユースケース1: 大規模コードベースの全体把握

100万トークンのコンテキストを使えば、50万行規模のリポジトリを一度に読み込んで「このバグの原因はどこにあるか」を問うことができる。従来のRAGアプローチ(コードを分割してベクターDBに入れる)よりも、問いかけが自然になる。

“`python

動作環境: Python 3.11+, openai>=2.0.0

必要: pip install openai

注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。

import os
from openai import OpenAI

client = OpenAI(api_key=os.environ[“OPENAI_API_KEY”])

大規模ファイルを読み込んでコンテキストに渡す例

with open(“large_codebase.py”, “r”) as f:
code_content = f.read()

response = client.chat.completions.create(
model=”gpt-5.4″,
messages=[
{
“role”: “system”,
“content”: “あなたはシニアソフトウェアエンジニアです。コードベースを分析して質問に答えてください。”
},
{
“role”: “user”,
“content”: f”以下のコードベースを分析して、バグが混入しやすい箇所を3つ特定してください。nn{code_content}”
}
],
max_tokens=4096
)

print(response.choices[0].message.content)
“`

動作環境: Python 3.11+, openai>=2.0.0, GPT-5.4 API(2026年3月時点)

ユースケース2: エージェントワークフローのオーケストレーター

GPT-5.4はOpenAI Agents SDKと組み合わせて、複数のサブエージェントを統括するオーケストレーターとして機能する。コード生成・検索・コンピューター操作を一つのループで完結させられる。

“`python

OpenAI Agents SDK を使ったオーケストレーター例

動作環境: Python 3.11+, openai-agents>=0.5.0

注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。

from openai import OpenAI
from agents import Agent, Runner, tool

client = OpenAI(api_key=os.environ[“OPENAI_API_KEY”])

@tool
def web_search(query: str) -> str:
“””ウェブ検索を実行する”””
# 実際の検索実装は省略
return f”検索結果: {query}”

@tool
def execute_code(code: str) -> str:
“””Pythonコードをサンドボックスで実行する”””
# 実際の実行実装は省略
return “実行結果”

GPT-5.4をオーケストレーターとして使う

orchestrator = Agent(
name=”Research Orchestrator”,
model=”gpt-5.4″,
instructions=”リサーチタスクを分析し、適切なツールを使って回答を生成してください。”,
tools=[web_search, execute_code]
)

result = Runner.run_sync(orchestrator, “2026年のAIエージェント市場規模を調べてください”)
print(result.final_output)
“`

動作環境: Python 3.11+, openai-agents>=0.5.0

ユースケース3: 長文ドキュメントの分析と要約

財務報告書、法律文書、研究論文など、数百ページ規模のPDFをテキスト変換して一括で読み込み、構造化された分析を行える。

“`python

長文PDF分析の例

動作環境: Python 3.11+, openai>=2.0.0, pymupdf>=1.24

注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。

import fitz # pymupdf
from openai import OpenAI

def analyze_large_document(pdf_path: str, question: str) -> str:
client = OpenAI(api_key=os.environ[“OPENAI_API_KEY”])

# PDFからテキスト抽出
doc = fitz.open(pdf_path)
full_text = “n”.join([page.get_text() for page in doc])

# トークン数の概算チェック(1文字≒0.5トークン)
estimated_tokens = len(full_text) * 0.5
print(f”推定トークン数: {estimated_tokens:,.0f}”)

response = client.chat.completions.create(
model=”gpt-5.4″,
messages=[
{“role”: “user”, “content”: f”{question}nn以下のドキュメント:n{full_text}”}
],
max_tokens=8192
)
return response.choices[0].message.content

使用例

result = analyze_large_document(“annual_report.pdf”, “このレポートの主要なリスク要因を5点まとめてください”)
print(result)
“`

よくある誤解

誤解1: 「GPT-5.4は全ての用途でGPT-5.4 miniより優れている」

GPT-5.4 miniは「GPT-5.4 Thinkingとほぼ区別がつかない回答を、noticeably(明らかに)速く返す」(TechRadar評)。レイテンシが重要な分類・データ抽出・フロントエンド生成・デバッグループ向けのサブエージェントには、miniの方が実用的だ。

誤解2: 「100万トークン全部使えば使うほどいい」

272Kトークン以上を使うと入力料金が$2.50/M → $5.00/Mに倍増する。必要な情報だけを切り出してコンテキストに渡す設計を先に検討すること。全部詰め込むのは最終手段だ。

誤解3: 「GPT-5.4はClaude Opus 4.6やGemini 3.1 Proを全部門で上回る」

ベンチマーク結果はそうなっていない。後述の比較表を見てほしい。

フラッグシップ3モデル比較 — GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro

2026年3月時点の主要ベンチマーク・料金を整理した。

項目 GPT-5.4 Claude Opus 4.6 Gemini 3.1 Pro
コンテキスト長 100万トークン 20万トークン 100万トークン
SWE-bench Verified(コーディング) 57.7% 81.4% 80.6%
GPQA Diamond(PhD級科学) 94.3%(最高)
ARC-AGI-2 73.3% 75.2% 77.1%(最高)
GDPval(知識労働) 83.0%(最高)
OSWorld(PC操作) 75.0%(人間超え)
入力料金(/1M tokens) $2.50 公開中 $2.00
出力料金(/1M tokens) $15.00 公開中 $8.00
最終確認日 2026-03-23 2026-03-23 2026-03-23

GPT-5.4が圧倒するのはPC操作とプロフェッショナル知識労働。コーディングではClaude Opus 4.6が依然リード。推論・科学系ではGemini 3.1 Proが一歩先を行く。「全部門最強」のモデルはまだ存在しない。

GPT-5.4 / mini / Pro / nanoの使い分け

モデル 最適な用途 速度 コスト感
GPT-5.4 Thinking 複雑推論、長文分析、エージェントオーケストレーション 標準
GPT-5.4 Pro 最大精度が必要なエンタープライズ用途 最高
GPT-5.4 mini 高速反復、分類、サブエージェント、フロントエンド生成
GPT-5.4 nano 超低レイテンシ、エッジ推論、モバイル向け 最速

AIgent Labが推奨する使い分けを一言で言うと: オーケストレーターにはGPT-5.4 Thinking、ワーカーエージェントにはminiかnano。コストを1/5〜1/10に抑えながら、全体のタスク完了品質を維持できる。

API料金の実態 — 272Kトークン閾値に注意

GPT-5.4の公式料金体系(2026年3月時点):

コンテキスト範囲 入力料金(/1M tokens) 出力料金(/1M tokens)
通常(〜272K) $2.50 $15.00
272K超〜1M $5.00 $22.50
キャッシュ済み入力 $0.25
GPT-5.4 Pro $30.00 要問い合わせ

料金情報の最終確認: 2026-03-23(OpenRouterOpenAI公式より)

実務上の設計ポイント:コンテキストウィンドウが100万あっても、272K以下に収まるよう情報の取捨選択をしてから渡すと、コストを半分に抑えられる。キャッシュを活用すると入力コストが90%削減できるため、同じシステムプロンプトを繰り返し使うシナリオでは必ずキャッシュを有効化すること。

【要注意】よくある設定ミスと回避策

ミス1: 272Kトークン超えに気づかずコストが膨らむ

❌ コンテキストにファイル全体を無制限に詰め込む
⭕ 事前にトークン数を見積もり、超える場合はチャンキングまたはRAGと組み合わせる

“`python

トークン数を事前にチェックする例

注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。

import tiktoken

def estimate_tokens(text: str, model: str = “gpt-4o”) -> int:
“””トークン数を見積もる(GPT-5.4は公式エンコーダー待ち、gpt-4oで近似)”””
enc = tiktoken.encoding_for_model(model)
return len(enc.encode(text))

def safe_context_input(text: str, threshold: int = 260_000) -> str:
“””272K閾値の手前で安全に切り捨てる”””
tokens = estimate_tokens(text)
if tokens > threshold:
# 超過分を削除(簡易版:先頭から取る)
ratio = threshold / tokens
cutoff = int(len(text) * ratio)
print(f”警告: {tokens}トークン → {threshold}に切り捨て”)
return text[:cutoff]
return text
“`

動作環境: Python 3.11+, tiktoken>=0.7.0

ミス2: GPT-5.4 ProをAPIで使おうとして無効なモデル名を渡す

❌ model=”gpt-5.4-pro”(APIで直接使えないケースがある)
⭕ ProはEnterprise・Teamプランの管理画面から有効化後に使用、または公式ドキュメントでモデル名を確認

ミス3: Computer Use機能を通常のAPIで使おうとする

❌ chat.completions.createでPC操作タスクを指示する
⭕ Responses APIのcomputer_use_preview toolを使う(詳細はOpenAI Docs参照)

ミス4: mini/nanoで済むタスクにGPT-5.4 Thinkingを使う

❌ 全てのAPI呼び出しにGPT-5.4 Thinkingを使う(コストが5〜10倍になる)
⭕ タスクの複雑さに応じてモデルを分ける。分類・翻訳・単純抽出はnanoかmini、深い推論のみThinkingを使う

結局どうすればいいのか

GPT-5.4 Thinkingの使いどころは明確だ。「複数の情報源を統合して判断する必要があるタスク」「大量のドキュメントを一括処理したい場面」「PCを自律的に操作するエージェントを作りたい場合」の3つに絞られる。

それ以外の日常的なAPIタスクはminiかnanoで賄う。コストと品質のバランスを取りながらGPT-5.4 Thinkingを「切り札」として使うのが、2026年時点での現実的な戦略だ。

AIエージェントの基本的な構築パターンや、オーケストレーターとワーカーの設計については、AIエージェント構築完全ガイドで詳しく解説している。

参考・出典


まとめ:今日から始める3つのアクション

  1. 今日やること: OpenAI Playgroundで自分のユースケースをGPT-5.4に渡し、GPT-5.2との回答差を確認する
  2. 今週中: 現在のAPIコードを「オーケストレーターはGPT-5.4 Thinking、ワーカーはmini」に分ける設計に変更してコストを試算する
  3. 今月中: 272Kトークン閾値を意識したトークン管理モジュールを本番パイプラインに組み込む

あわせて読みたい:


この記事はAIgent Lab編集部がお届けしました。AIエージェント導入のご相談は 株式会社Uravation までどうぞ。

Need help moving from reading to rollout?

この記事を読んで導入イメージが固まってきた方へ

Uravationでは、AIエージェントの要件整理、PoC設計、社内導入、研修まで一気通貫で支援しています。

この記事をシェア

X Facebook LINE

※ 本記事の情報は2026年3月時点のものです。サービスの料金・仕様は変更される可能性があります。最新情報は各サービスの公式サイトをご確認ください。

関連記事