ニュース

Gemini 3.1 Pro|1Mトークンの全貌と使い方

この記事の結論

Gemini 3.1 Proは100万トークン・5モダリティ対応。ARC-AGI-2で77.1%のフラッグシップ。

「Gemini 3.1 ProはGPT-4oと何が違うの?」「1Mトークンって実際何に使えるの?」

2026年2月19日にGoogleがリリースしたGemini 3.1 Proは、フラッグシップモデルとして1Mトークンのコンテキストウィンドウと5モダリティ(テキスト・画像・音声・動画・コード)のネイティブ処理を備える。しかし、スペックシートを眺めても「実際どう使うのか」が見えにくい。

この記事では開発者がよく持つ疑問に直接答える形で、Gemini 3.1 Proの仕様・API実装・使い所・限界を整理する。


そもそもGemini 3.1 Proとは何か

Gemini 3.1 Proは、Googleが2026年2月19日に公開したフラッグシップLLMだ。「3.1」という.1刻みのバージョン番号はGeminiシリーズ初めてで、過去2世代が途中アップデートに「.5」を使っていたのと対照的。Googleは「幅広い機能拡張ではなく、知能の集中強化」と説明している。

競合との基本比較は以下の通り(各社公式発表、参照日: 2026-03-01)。

モデル コンテキスト マルチモーダル ARC-AGI-2 入力コスト(1Mトークン)
Gemini 3.1 Pro 1M トークン テキスト/画像/音声/動画/コード 77.1% $2.00
GPT-4o 128K トークン テキスト/画像/音声 $2.50
Claude 3.7 Sonnet 200K トークン テキスト/画像 $3.00

ARC-AGI-2のスコア77.1%は同世代のGemini 3 Proの2倍以上で、GPQA Diamondでは94.3%を記録。SWE-Bench Verifiedは80.6%だ(Gemini公式Model Card、参照日: 2026-03-01)。

何が新しいのか

Gemini 3.1 Proが3 Proと異なる主な点は4つ。

1. 3段階の思考深度(Thinkingパラメータ)

「Medium」思考モードが新たに追加され、Low/Medium/Highの3段階を切り替えられる。計算コストとレイテンシのトレードオフを、タスクに合わせて数値で制御できるようになった。

2. 65,536トークンの出力上限

出力トークンが大幅に拡張された。長大なコードファイルを一度に丸ごと書き直すユースケースや、数万字の文書生成に対応する。

3. コード実行サンドボックス(Code Execution)

Pythonコードを生成し、サンドボックス内で実行し、結果を見てさらに推論するループを1回のAPIコールで完結できる。数値計算・データ変換・画像処理に使える。

4. 強化されたエージェント推論

構造化されたタスク(金融・スプレッドシート系ワークフロー)での自律実行精度が向上。SWE-Bench 80.6%はコードエージェントとして現時点で最高水準の一つ。

具体的に何ができるようになるのか

ユースケース1:超長文書の横断分析

1Mトークンは「900ページのPDFを1回のプロンプトに収められる」規模だ。法律文書・財務レポート・コードベース全体を一括でコンテキストに入れ、構断的に質問できる。

以下はPDFを読み込んで横断分析するサンプルコード(動作環境: Python 3.11+, google-generativeai>=0.8.0)。

# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
# 動作環境: Python 3.11+, google-generativeai>=0.8.0
# pip install google-generativeai

import google.generativeai as genai
import os

# APIキーは環境変数から取得(ハードコード厳禁)
genai.configure(api_key=os.environ["GEMINI_API_KEY"])

model = genai.GenerativeModel(
    model_name="gemini-3-1-pro-preview",
    # Medium思考: レイテンシとコストのバランス型
    generation_config=genai.types.GenerationConfig(
        thinking_config=genai.types.ThinkingConfig(thinking_budget=8192)
    )
)

# PDFをアップロードしてコンテキストに含める
pdf_file = genai.upload_file("report.pdf", mime_type="application/pdf")

response = model.generate_content([
    pdf_file,
    "この文書全体を読んで、リスク要因を3つ箇条書きで整理してください。"
])
print(response.text)

ユースケース2:コード実行サンドボックス

モデルがPythonを書いて実行し、結果を見てさらに推論する。「データを渡したら最適な可視化を自動生成する」というユースケースに使える。

# コード実行ツールを有効にしたリクエスト例
import google.generativeai as genai
import os

genai.configure(api_key=os.environ["GEMINI_API_KEY"])

model = genai.GenerativeModel(
    model_name="gemini-3-1-pro-preview",
    tools=["code_execution"]  # コード実行を有効化
)

response = model.generate_content(
    "1から100の素数を全て列挙し、その個数と合計を計算してください。"
)

# テキストとコード実行結果が混在して返ってくる
for part in response.candidates[0].content.parts:
    if hasattr(part, "executable_code"):
        print("【生成コード】")
        print(part.executable_code.code)
    elif hasattr(part, "code_execution_result"):
        print("【実行結果】")
        print(part.code_execution_result.output)
    else:
        print("【テキスト】")
        print(part.text)

制約として、コード実行のタイムアウトは30秒、ファイルI/Oは不可、対応言語はPythonのみ(参照日: 2026-04-07)。

ユースケース3:マルチモーダルエージェント

テキスト・画像・音声・動画を同一APIコールで処理できるため、「ミーティング動画を渡してアクションアイテムを抽出する」といったパイプラインが簡潔に書ける。

# 動画ファイルをアップロードして要約・アクションアイテム抽出
import google.generativeai as genai
import os

genai.configure(api_key=os.environ["GEMINI_API_KEY"])

# 動画ファイルのアップロード(最大1時間分の動画に対応)
video_file = genai.upload_file("meeting.mp4", mime_type="video/mp4")

model = genai.GenerativeModel("gemini-3-1-pro-preview")

response = model.generate_content([
    video_file,
    """
    このミーティング動画を分析して、以下をJSON形式で出力してください:
    1. 会議の要約(3文以内)
    2. アクションアイテムのリスト(担当者・期日・内容)
    3. 未解決の議題
    """
])
print(response.text)

よくある誤解

「1Mトークンなら何でも精度よく処理できる」→ 違う

コンテキストウィンドウが大きくても、中間付近の情報は端に比べて取りこぼしやすい傾向が研究で指摘されている(Lost in the Middle問題)。重要な情報はプロンプトの先頭か末尾に置く、チャンク分割で段階的に処理するなど、設計工夫は必要だ。

「Code Executionでファイルを読み書きできる」→ できない

サンドボックスはステートレスで、ファイルI/Oは現時点では非対応。データはプロンプト内に直接埋め込むか、GCS等からURLで参照する必要がある。

「Gemini 3.1 Ultraが200万トークンで出ている」→ 2026年4月時点では未確認

一部メディアで「Ultra」や「2M token」の情報が出回っているが、Google公式ドキュメント(参照日: 2026-04-07)には掲載がない。未確認情報に基づいたシステム設計は避けること。

結局どう使えばいいのか

Gemini 3.1 Proが特に力を発揮するユースケースは3つだ。

  1. 長大なコードベースへのエージェント適用:SWE-Bench 80.6%の精度と65Kトークン出力で、大規模リファクタリングに向く
  2. マルチモーダルパイプライン:動画・音声・画像をテキストと一緒に処理できるため、コンテンツ分析や会議要約の自動化に最適
  3. データ分析+コード実行の自動化:CSVや数値データを渡して、分析コードの生成→実行→解釈を一気通貫で行わせる

逆に、短い質問応答や軽量なチャットボットには、コスト効率の高いGemini 3.1 Flash-Liteが適している。

AIエージェント全体のアーキテクチャ設計については、AIエージェント構築ツール徹底比較も参考にしてほしい。

参考・出典


あわせて読みたい:


この記事はAIgent Lab編集部がお届けしました。

Need help moving from reading to rollout?

この記事を読んで導入イメージが固まってきた方へ

Uravationでは、AIエージェントの要件整理、PoC設計、社内導入、研修まで一気通貫で支援しています。

この記事をシェア

X Facebook LINE

※ 本記事の情報は2026年4月時点のものです。サービスの料金・仕様は変更される可能性があります。最新情報は各サービスの公式サイトをご確認ください。

関連記事