ベンチマーク

Gemini 3.1 Flash-Lite解説|APIコストと他モデルの使い分け

Gemini 3.1 Flash-Lite解説|APIコストと他モデルの使い分け

この記事の結論

Googleが2026年3月3日に公開したGemini 3.1 Flash-Lite(プレビュー)の料金・性能を徹底分析。Gemini Flashや他社モデルとのコスト比較、適したユースケースとPython SDKのサンプルコードを紹介。

「高性能なLLMを使いたいが、API費用が怖い」——大量処理を抱える開発者なら、誰もが直面する問題だ。

Googleが2026年3月3日に公開した Gemini 3.1 Flash-Lite(プレビュー)は、その問いへの現時点での答えだ。入力トークン $0.25/1M、出力トークン $1.50/1M という価格設定は、Claude 4.5 Haiku(入力 $1.00/1M)の4分の1以下のコストで、性能を妥協せずに済む可能性を示している。

ただし「安いから全部これ」というわけにはいかない。モデルごとに得意不得意があり、使い分けを間違えるとコスト最適化の恩恵が消える。本記事では、料金比較・ベンチマーク・適したユースケースをまとめた。


そもそも Gemini 3.1 Flash-Lite とは何か

Gemini 3シリーズの中で、最軽量・最低コストに位置付けられたモデルだ。Googleの公式ブログでは「最も費用対効果に優れたGemini 3シリーズモデル」と説明されている。

特徴は3点に集約される: 低コスト高速長文脈対応(最大100万トークン)。3.1という名称からわかる通り、Flash初期版(Gemini 3 Flash)から改良されたマイナーバージョンだ。

また、AI Studio・Vertex AIでThinking(思考レベル設定)が標準搭載されている点が前世代との大きな違いだ。高頻度ワークロードでどれだけ「考えさせるか」を開発者が制御できる。

何が新しいのか

比較項目 Gemini 3.1 Flash-Lite Gemini 2.5 Flash(旧世代)
Time to First Token(速度) 2.5倍高速 基準
出力トークン速度 381 tokens/秒 232 tokens/秒
出力速度改善率 +45%
コンテキストウィンドウ 100万トークン 100万トークン
Thinking機能 標準搭載 一部のみ
マルチモーダル テキスト・画像・音声・動画 テキスト・画像

出典: Artificial Analysis ベンチマーク(参照日: 2026-03-21)

具体的に何ができるようになるのか

料金比較(モデル横断)

モデル 入力 (1Mトークン) 出力 (1Mトークン) Flash-Liteとのコスト差(入力)
Gemini 3.1 Flash-Lite $0.25 $1.50 —(基準)
Gemini 3 Flash $0.50 $3.00 2倍高い
Gemini 3.1 Pro $2.00 8倍高い
Claude 4.5 Haiku $1.00 $5.00 4倍高い

料金情報の最終確認: 2026-03-21(VentureBeat、OpenRouter、pricepertoken.com参照)

出力コストについてはFlash-Liteが競合より高め(層平均 $0.90/1Mに対して $1.50)という点は正直に書いておく。入力が多く出力が少ないワークロードでは優位性が高く、出力量が多いケースでは計算が変わる。

Python SDKでの呼び出し方法

以下は、Google Generative AI SDKを使ったFlash-Liteの基本的な呼び出し例だ。

import google.generativeai as genai
import os

# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
# APIキーは環境変数で管理すること(ハードコードNG)
genai.configure(api_key=os.environ["GOOGLE_API_KEY"])

model = genai.GenerativeModel("gemini-3.1-flash-lite-preview")

response = model.generate_content(
    "大量のカスタマーサポートログを要約してください。nn" + support_log_text
)
print(response.text)

動作環境: Python 3.10+, google-generativeai>=0.8.0

Thinkingレベルを制御したい場合は以下のように設定する。

from google.generativeai import types

# thinking_budget: 0=なし, 1024=軽量思考, 8192=深い思考
response = model.generate_content(
    contents="複雑な分析タスク...",
    generation_config=types.GenerationConfig(
        thinking_config=types.ThinkingConfig(thinking_budget=1024)
    )
)
print(response.text)

ポイント: thinking_budgetを0にするとThinkingをオフにできる。コスト最優先の大量処理では0、精度が必要なタスクでは1024以上を設定する。

非同期バッチ処理の例(大量ログ分析)

import asyncio
import google.generativeai as genai

# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
model = genai.GenerativeModel("gemini-3.1-flash-lite-preview")

async def classify_log(log_text: str) -> str:
    """1件のサポートログを分類する"""
    response = await model.generate_content_async(
        f"以下のログを「障害」「質問」「要望」に分類してください: {log_text}"
    )
    return response.text

async def process_batch(logs: list[str]) -> list[str]:
    """複数ログを並列処理"""
    tasks = [classify_log(log) for log in logs]
    return await asyncio.gather(*tasks)

# 使用例
logs = ["サービスに繋がらない", "パスワードリセット方法は?", ...]
results = asyncio.run(process_batch(logs))

動作環境: Python 3.10+, google-generativeai>=0.8.0, asyncio

よくある誤解

誤解1: 「Flash-LiteはFlashの単なる廉価版」

実際は 別設計のモデルだ。速度を最優先に最適化されており、出力速度はFlash(232 tokens/秒)を大きく上回る381 tokens/秒を記録している。廉価版というより、「速度・コスト特化型」と捉える方が正確だ。

誤解2: 「安いから精度が低い」

科学的知識ベンチマーク(GPQA Diamond)で86.9%、マルチモーダル理解(MMMU Pro)で76.8%というスコアは、コスト帯の中では高い水準だ。ただし複雑な推論や長い多段ステップのタスクでは、Flash以上を選ぶ方がよい場面もある。

誤解3: 「出力が冗長になる」

Artificial Analysisのベンチマークでは、評価テスト中に53Mトークンを出力し「平均(20M)の2倍以上」という結果が出ている。実際の用途でも、プロンプト設計で出力フォーマットを明示的に指定することを推奨する。

結局どうすればいいのか

シンプルな使い分けの判断基準を整理すると以下になる。

ユースケース 推奨モデル 理由
大量テキスト分類・ラベリング Flash-Lite 速度が速く、繰り返し処理に最適
多言語翻訳(大量) Flash-Lite コスト優位性が大きい
長文サマリー(大量バッチ) Flash-Lite 100Mトークンコンテキストも活用可
複雑な推論・分析 Gemini 3 Flash 品質と速度のバランス
コーディング・技術的推論 Gemini 3.1 Pro / Claude 4 精度が必要な場面
マルチモーダル(動画・音声含む) Flash-Lite 動画処理ベンチ(Video-MMMU)84.8%

月間1億トークンを処理する場合、Haikuと比較するとFLash-Lite(入力コスト)では $25 vs $100 という差になる。ワークロードが大きいほど恩恵が増す。

Geminiシリーズの比較については、Gemini 3.1 Pro完全解説も参照してほしい。また複数LLMのコスト比較を含む実践評価については、Claude Opus 4.6 vs GPT-5.4 vs Gemini 3.1比較でまとめている。

参考・出典


あわせて読みたい:


Gemini APIを使ったコスト最適化やLLM選定のご相談は、株式会社Uravationのお問い合わせフォームからお気軽にどうぞ。

この記事はAIgent Lab編集部がお届けしました。

関連記事: Google Workspace × Gemini統合|AI業務効率化の全て

Need help moving from reading to rollout?

この記事を読んで導入イメージが固まってきた方へ

Uravationでは、AIエージェントの要件整理、PoC設計、社内導入、研修まで一気通貫で支援しています。

この記事をシェア

X Facebook LINE

※ 本記事の情報は2026年3月時点のものです。サービスの料金・仕様は変更される可能性があります。最新情報は各サービスの公式サイトをご確認ください。

関連記事