Gemini 3.1 Flash-Lite解説｜APIコストと他モデルの使い分け

2026.03.21 公開 2026.03.22 更新 9分で読める

この記事の結論

Googleが2026年3月3日に公開したGemini 3.1 Flash-Lite（プレビュー）の料金・性能を徹底分析。Gemini Flashや他社モデルとのコスト比較、適したユースケースとPython SDKのサンプルコードを紹介。

「高性能なLLMを使いたいが、API費用が怖い」——大量処理を抱える開発者なら、誰もが直面する問題だ。

Googleが2026年3月3日に公開した Gemini 3.1 Flash-Lite（プレビュー）は、その問いへの現時点での答えだ。入力トークン $0.25/1M、出力トークン $1.50/1M という価格設定は、Claude 4.5 Haiku（入力 $1.00/1M）の4分の1以下のコストで、性能を妥協せずに済む可能性を示している。

ただし「安いから全部これ」というわけにはいかない。モデルごとに得意不得意があり、使い分けを間違えるとコスト最適化の恩恵が消える。本記事では、料金比較・ベンチマーク・適したユースケースをまとめた。

そもそも Gemini 3.1 Flash-Lite とは何か

Gemini 3シリーズの中で、最軽量・最低コストに位置付けられたモデルだ。Googleの公式ブログでは「最も費用対効果に優れたGemini 3シリーズモデル」と説明されている。

特徴は3点に集約される: 低コスト、高速、長文脈対応（最大100万トークン）。3.1という名称からわかる通り、Flash初期版（Gemini 3 Flash）から改良されたマイナーバージョンだ。

また、AI Studio・Vertex AIでThinking（思考レベル設定）が標準搭載されている点が前世代との大きな違いだ。高頻度ワークロードでどれだけ「考えさせるか」を開発者が制御できる。

何が新しいのか

比較項目	Gemini 3.1 Flash-Lite	Gemini 2.5 Flash（旧世代）
Time to First Token（速度）	2.5倍高速	基準
出力トークン速度	381 tokens/秒	232 tokens/秒
出力速度改善率	+45%	—
コンテキストウィンドウ	100万トークン	100万トークン
Thinking機能	標準搭載	一部のみ
マルチモーダル	テキスト・画像・音声・動画	テキスト・画像

出典: Artificial Analysis ベンチマーク（参照日: 2026-03-21）

具体的に何ができるようになるのか

料金比較（モデル横断）

モデル	入力 (1Mトークン)	出力 (1Mトークン)	Flash-Liteとのコスト差（入力）
Gemini 3.1 Flash-Lite	$0.25	$1.50	—（基準）
Gemini 3 Flash	$0.50	$3.00	2倍高い
Gemini 3.1 Pro	$2.00	—	8倍高い
Claude 4.5 Haiku	$1.00	$5.00	4倍高い

料金情報の最終確認: 2026-03-21（VentureBeat、OpenRouter、pricepertoken.com参照）

出力コストについてはFlash-Liteが競合より高め（層平均 $0.90/1Mに対して $1.50）という点は正直に書いておく。入力が多く出力が少ないワークロードでは優位性が高く、出力量が多いケースでは計算が変わる。

Python SDKでの呼び出し方法

以下は、Google Generative AI SDKを使ったFlash-Liteの基本的な呼び出し例だ。

import google.generativeai as genai
import os

# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
# APIキーは環境変数で管理すること（ハードコードNG）
genai.configure(api_key=os.environ["GOOGLE_API_KEY"])

model = genai.GenerativeModel("gemini-3.1-flash-lite-preview")

response = model.generate_content(
    "大量のカスタマーサポートログを要約してください。nn" + support_log_text
)
print(response.text)

動作環境: Python 3.10+, google-generativeai>=0.8.0

Thinkingレベルを制御したい場合は以下のように設定する。

from google.generativeai import types

# thinking_budget: 0=なし, 1024=軽量思考, 8192=深い思考
response = model.generate_content(
    contents="複雑な分析タスク...",
    generation_config=types.GenerationConfig(
        thinking_config=types.ThinkingConfig(thinking_budget=1024)
    )
)
print(response.text)

ポイント: thinking_budgetを0にするとThinkingをオフにできる。コスト最優先の大量処理では0、精度が必要なタスクでは1024以上を設定する。

非同期バッチ処理の例（大量ログ分析）

import asyncio
import google.generativeai as genai

# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
model = genai.GenerativeModel("gemini-3.1-flash-lite-preview")

async def classify_log(log_text: str) -> str:
    """1件のサポートログを分類する"""
    response = await model.generate_content_async(
        f"以下のログを「障害」「質問」「要望」に分類してください: {log_text}"
    )
    return response.text

async def process_batch(logs: list[str]) -> list[str]:
    """複数ログを並列処理"""
    tasks = [classify_log(log) for log in logs]
    return await asyncio.gather(*tasks)

# 使用例
logs = ["サービスに繋がらない", "パスワードリセット方法は？", ...]
results = asyncio.run(process_batch(logs))

動作環境: Python 3.10+, google-generativeai>=0.8.0, asyncio

よくある誤解

誤解1: 「Flash-LiteはFlashの単なる廉価版」

実際は 別設計のモデルだ。速度を最優先に最適化されており、出力速度はFlash（232 tokens/秒）を大きく上回る381 tokens/秒を記録している。廉価版というより、「速度・コスト特化型」と捉える方が正確だ。

誤解2: 「安いから精度が低い」

科学的知識ベンチマーク（GPQA Diamond）で86.9%、マルチモーダル理解（MMMU Pro）で76.8%というスコアは、コスト帯の中では高い水準だ。ただし複雑な推論や長い多段ステップのタスクでは、Flash以上を選ぶ方がよい場面もある。

誤解3: 「出力が冗長になる」

Artificial Analysisのベンチマークでは、評価テスト中に53Mトークンを出力し「平均（20M）の2倍以上」という結果が出ている。実際の用途でも、プロンプト設計で出力フォーマットを明示的に指定することを推奨する。

結局どうすればいいのか

シンプルな使い分けの判断基準を整理すると以下になる。

ユースケース	推奨モデル	理由
大量テキスト分類・ラベリング	Flash-Lite	速度が速く、繰り返し処理に最適
多言語翻訳（大量）	Flash-Lite	コスト優位性が大きい
長文サマリー（大量バッチ）	Flash-Lite	100Mトークンコンテキストも活用可
複雑な推論・分析	Gemini 3 Flash	品質と速度のバランス
コーディング・技術的推論	Gemini 3.1 Pro / Claude 4	精度が必要な場面
マルチモーダル（動画・音声含む）	Flash-Lite	動画処理ベンチ（Video-MMMU）84.8%