2026年3月3日、GoogleはGemini 3シリーズの新モデル「Gemini 3.1 Flash-Lite」をパブリックプレビューとしてリリースした。
一言で言えば、大量処理・低レイテンシが求められるタスクに特化した、Geminiファミリーで最もコスパの良いモデルだ。翻訳、コンテンツモデレーション、分類、UI生成など、「高度な推論は不要だが大量にさばきたい」ユースケースを狙っている。
正直、名前だけ聞くと「また軽量モデルか」と思うかもしれない。でも実際にAPIを叩いてみると、この価格帯でこの速度はかなりインパクトがある。
この記事では、Gemini 3.1 Flash-Liteのスペック・ベンチマーク・料金を整理し、実際のAPI呼び出しコード例を交えて「どんな場面で使うべきか」を解説する。
何が新しいのか — 2.5 Flashとの比較
前世代のGemini 2.5 Flashと比較すると、改善幅がわかりやすい。AIエージェント構築完全ガイドでも触れているが、推論モデルの選定はエージェント設計の根幹に関わる。
| 項目 | Gemini 3.1 Flash-Lite | Gemini 2.5 Flash | 差分 |
|---|---|---|---|
| 入力料金 | $0.25/1Mトークン | $0.30/1Mトークン | 17%安 |
| 出力料金 | $1.50/1Mトークン | $2.50/1Mトークン | 40%安 |
| 出力速度 | 381.9 tokens/s | 232.3 tokens/s | 64%高速 |
| TTFT(初回トークン) | — | — | 2.5倍高速 |
| コンテキスト窓 | 1,048,576トークン | 1,048,576トークン | 同等 |
| 最大出力 | 65,535トークン | 65,535トークン | 同等 |
| GPQA Diamond | 86.9% | — | — |
| MMMU-Pro | 76.8% | — | — |
| MMMLU(多言語) | 88.9% | — | — |
| LiveCodeBench | 72.0% | — | — |
料金情報の最終確認: 2026-03-13。ベンチマークスコアはGoogle DeepMindモデルカード(参照)より。速度データはArtificial Analysisベンチマーク(参照)より。
要するに、出力コスト40%削減・速度64%向上を同時に達成している。100万トークンのコンテキスト窓はそのままなので、長文処理にも対応できる。
具体的に何ができるようになるのか
Flash-Liteが得意とするのは、以下のような「高スループット・低推論」タスクだ。
- 大量翻訳 — ECサイトの商品説明を50言語に一括変換
- コンテンツモデレーション — UGCの安全性チェックを毎秒数百件処理
- テキスト分類 — 問い合わせメールの自動振り分け
- UI/ダッシュボード生成 — 自然言語からHTMLコードを生成
- データ抽出・構造化 — PDF/画像からの情報抽出(マルチモーダル入力対応)
逆に、複雑な多段推論や高度な数学的推論が必要なタスクでは、Gemini 3.1 Proを使うべきだ。HLAベンチマーク(高度な論理推論)ではFlash-Liteが16%に対してProは44.4%と大きな差がある(SiliconANGLE, 2026-03-03)。
Python APIでの基本的な呼び出し
Google Gen AI SDKを使った最小限のコード例を紹介する。テキスト分類タスクを想定している。
# 動作環境: Python 3.10+, google-genai>=1.0
# インストール: pip install google-genai
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
import google.genai as genai
import os
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
categories = ["技術的質問", "料金に関する問い合わせ", "クレーム", "その他"]
def classify_inquiry(text: str) -> str:
"""問い合わせテキストを分類する"""
prompt = f"""以下の問い合わせを、次のカテゴリのいずれかに分類してください。
カテゴリ: {', '.join(categories)}
問い合わせ: {text}
カテゴリ名だけを返してください。"""
response = client.models.generate_content(
model="gemini-3.1-flash-lite-preview",
contents=prompt
)
return response.text.strip()
# 使用例
result = classify_inquiry("先月の請求額が想定より高いのですが確認できますか?")
print(result) # → 料金に関する問い合わせ
動作環境: Python 3.10+, google-genai SDK 1.0以降
ポイント:
- モデルIDは
gemini-3.1-flash-lite-preview(プレビュー段階) - APIキーは環境変数から取得(ハードコード厳禁)
- 分類のような単純タスクではThinking機能は不要。有効にするとコストが増える
バッチ処理で大量テキストを分類する例
# 動作環境: Python 3.10+, google-genai>=1.0
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
import asyncio
import google.genai as genai
import os
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
async def classify_batch(texts: list[str]) -> list[str]:
"""複数テキストを並列で分類"""
tasks = []
for text in texts:
prompt = f"以下を「技術的質問/料金/クレーム/その他」に分類: {text}"
tasks.append(
client.aio.models.generate_content(
model="gemini-3.1-flash-lite-preview",
contents=prompt
)
)
responses = await asyncio.gather(*tasks)
return [r.text.strip() for r in responses]
# 1000件の問い合わせを一括分類
inquiries = ["請求書の再発行をお願いします", "APIが500エラーを返します", ...]
results = asyncio.run(classify_batch(inquiries))
381.9 tokens/sの出力速度があるため、短い分類レスポンスなら1件あたり数十ミリ秒で返ってくる。1000件処理しても、並列度を調整すれば数分で完了する計算だ。
オープンソースの世界でも効率重視のモデルが登場しています。OlMo HybridのSSM×Transformerアーキテクチャは推論コスト削減の新しいアプローチとして注目です。
競合モデルとのポジショニング
Flash-Liteの位置づけを理解するには、競合の推論モデルとの比較が欠かせない。特にGPT-5.2 Thinkingのreasoning effort機能は、推論の深さを動的に制御するアプローチでFlash-Liteとは異なる設計思想を持つ。
低コスト推論モデル市場は激戦区だ。主要な競合と並べてみる。
| モデル | 出力料金(/1M) | 出力速度 | コンテキスト窓 |
|---|---|---|---|
| Gemini 3.1 Flash-Lite | $1.50 | 381.9 t/s | 1Mトークン |
| GPT-5 mini | $2.00 | ~180 t/s | 128Kトークン |
| Claude 4.5 Haiku | $5.00 | ~140 t/s | 200Kトークン |
| Gemini 2.5 Flash-Lite | $0.40 | — | 1Mトークン |
料金・速度データの最終確認: 2026-03-13(BuildFastWithAI, 参照日: 2026-03-13)
Flash-Liteは速度とコンテキスト窓の広さで突出している。一方で、旧世代の2.5 Flash-Liteは$0.40/1M出力とさらに安い。品質を許容できるなら2.5世代も選択肢に入る。
ぶっちゃけ、「とにかく安く」なら2.5 Flash-Lite、「安さと品質のバランス」なら3.1 Flash-Lite、「推論品質最優先」ならClaude 4.5 Haikuという棲み分けだ。
よくある誤解
Flash-Liteに関して、いくつか誤解されやすいポイントがある。
誤解1:「Liteだから品質が低い」
GPQA Diamond(博士レベルの科学問題)で86.9%、多言語QA(MMMLU)で88.9%を記録している。GPT-4o miniやClaude 4.5 Haikuを上回るベンチマーク項目も複数ある(Google DeepMind Model Card, 参照日: 2026-03-13)。「Lite=低品質」ではなく、「Lite=推論ステップを省略して高速化」と理解すべきだ。
誤解2:「画像や動画は処理できない」
入力はテキスト、画像、音声、動画、PDFに対応している。出力がテキストのみという制約はあるが、マルチモーダル入力は問題なく使える。画像分類やPDFからのデータ抽出も守備範囲だ。
誤解3:「Thinking機能は使えない」
実はThinking(思考プロセスの表示)にも対応している。minimal/low/medium/highの4段階で設定可能だ(Google Cloud Documentation, 参照日: 2026-03-13)。ただし、Flash-Liteの強みは速度とコストなので、Thinkingを有効にすると本来のメリットが薄れる点は注意。
【要注意】Flash-Liteを使う際の失敗パターン
失敗1: 複雑な推論タスクにFlash-Liteを使ってしまう
❌ 多段階の論理推論や数学的証明をFlash-Liteに任せる
⭕ 複雑な推論はGemini 3.1 ProやClaude Opusに回し、Flash-Liteは分類・翻訳・抽出に限定する
なぜ重要か: HLAベンチマークでFlash-Lite 16% vs Pro 44.4%。推論力の差は歴然だ。コスト削減のために品質を犠牲にすると、結局やり直しでコストが増える。
失敗2: レート制限を考慮せずに大量リクエストを投げる
❌ asyncio.gatherで数千件を一斉に送信
⭕ セマフォで同時実行数を制御し、429エラー時はexponential backoffでリトライ
# 動作環境: Python 3.10+
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
import asyncio
semaphore = asyncio.Semaphore(50) # 同時50リクエストに制限
async def safe_classify(client, text):
async with semaphore:
try:
resp = await client.aio.models.generate_content(
model="gemini-3.1-flash-lite-preview",
contents=f"分類してください: {text}"
)
return resp.text.strip()
except Exception as e:
if "429" in str(e):
await asyncio.sleep(2) # バックオフ
return await safe_classify(client, text)
raise
失敗3: プレビュー版をそのまま本番投入する
❌ gemini-3.1-flash-lite-preview をプロダクションで直接使用
⭕ GA(一般提供)版のリリースを待つか、フォールバック先のモデルを用意しておく
なぜ重要か: プレビュー版はSLAがない。予告なくモデルの挙動が変わる可能性がある。
高度な推論が必要なタスクにはGPT-5.2 Thinkingの専門家レベルの推論能力が適しており、Flash-Liteとの使い分けがポイントになります。
結局どうすればいいのか
Gemini 3.1 Flash-Liteは「安くて速い」を追求した実用的なモデルだ。以下の3つのアクションで試してみてほしい。
- 今日: Google AI Studioで無料枠を使ってFlash-Liteを試す。分類タスクを10件ほど投げて、レスポンス速度を体感する
- 今週中: 自社の分類・翻訳タスクで現行モデルとFlash-Liteの出力品質を比較。コスト試算も出す
- 今月中: GA版リリース後に本番切り替えの判断。フォールバック設計(Flash-Lite → Pro)を実装しておく
あわせて読みたい:
- AIエージェント構築完全ガイド — エージェント設計でモデル選定に迷ったらこちら
- AIエージェント構築ツール徹底比較 — Dify/n8n/LangChainの選び方
ご質問・ご相談はこちらからお気軽にどうぞ。
この記事はAIgent Lab編集部がお届けしました。
参考・出典
- Gemini 3.1 Flash Lite: Our most cost-effective AI model yet — Google Blog(参照日: 2026-03-13)
- Gemini 3.1 Flash-Lite Model Card — Google DeepMind(参照日: 2026-03-13)
- Gemini 3.1 Flash-Lite Documentation — Google Cloud(参照日: 2026-03-13)
- Google launches speedy Gemini 3.1 Flash-Lite model in preview — SiliconANGLE(参照日: 2026-03-13)
- Gemini 3.1 Flash Lite vs 2.5 Flash: Speed, Cost & Benchmarks — BuildFastWithAI(参照日: 2026-03-13)