「高性能なLLMを使いたいが、API費用が怖い」——大量処理を抱える開発者なら、誰もが直面する問題だ。
Googleが2026年3月3日に公開した Gemini 3.1 Flash-Lite(プレビュー)は、その問いへの現時点での答えだ。入力トークン $0.25/1M、出力トークン $1.50/1M という価格設定は、Claude 4.5 Haiku(入力 $1.00/1M)の4分の1以下のコストで、性能を妥協せずに済む可能性を示している。
ただし「安いから全部これ」というわけにはいかない。モデルごとに得意不得意があり、使い分けを間違えるとコスト最適化の恩恵が消える。本記事では、料金比較・ベンチマーク・適したユースケースをまとめた。
そもそも Gemini 3.1 Flash-Lite とは何か
Gemini 3シリーズの中で、最軽量・最低コストに位置付けられたモデルだ。Googleの公式ブログでは「最も費用対効果に優れたGemini 3シリーズモデル」と説明されている。
特徴は3点に集約される: 低コスト、高速、長文脈対応(最大100万トークン)。3.1という名称からわかる通り、Flash初期版(Gemini 3 Flash)から改良されたマイナーバージョンだ。
また、AI Studio・Vertex AIでThinking(思考レベル設定)が標準搭載されている点が前世代との大きな違いだ。高頻度ワークロードでどれだけ「考えさせるか」を開発者が制御できる。
何が新しいのか
| 比較項目 | Gemini 3.1 Flash-Lite | Gemini 2.5 Flash(旧世代) |
|---|---|---|
| Time to First Token(速度) | 2.5倍高速 | 基準 |
| 出力トークン速度 | 381 tokens/秒 | 232 tokens/秒 |
| 出力速度改善率 | +45% | — |
| コンテキストウィンドウ | 100万トークン | 100万トークン |
| Thinking機能 | 標準搭載 | 一部のみ |
| マルチモーダル | テキスト・画像・音声・動画 | テキスト・画像 |
出典: Artificial Analysis ベンチマーク(参照日: 2026-03-21)
具体的に何ができるようになるのか
料金比較(モデル横断)
| モデル | 入力 (1Mトークン) | 出力 (1Mトークン) | Flash-Liteとのコスト差(入力) |
|---|---|---|---|
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | —(基準) |
| Gemini 3 Flash | $0.50 | $3.00 | 2倍高い |
| Gemini 3.1 Pro | $2.00 | — | 8倍高い |
| Claude 4.5 Haiku | $1.00 | $5.00 | 4倍高い |
料金情報の最終確認: 2026-03-21(VentureBeat、OpenRouter、pricepertoken.com参照)
出力コストについてはFlash-Liteが競合より高め(層平均 $0.90/1Mに対して $1.50)という点は正直に書いておく。入力が多く出力が少ないワークロードでは優位性が高く、出力量が多いケースでは計算が変わる。
Python SDKでの呼び出し方法
以下は、Google Generative AI SDKを使ったFlash-Liteの基本的な呼び出し例だ。
import google.generativeai as genai
import os
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
# APIキーは環境変数で管理すること(ハードコードNG)
genai.configure(api_key=os.environ["GOOGLE_API_KEY"])
model = genai.GenerativeModel("gemini-3.1-flash-lite-preview")
response = model.generate_content(
"大量のカスタマーサポートログを要約してください。nn" + support_log_text
)
print(response.text)
動作環境: Python 3.10+, google-generativeai>=0.8.0
Thinkingレベルを制御したい場合は以下のように設定する。
from google.generativeai import types
# thinking_budget: 0=なし, 1024=軽量思考, 8192=深い思考
response = model.generate_content(
contents="複雑な分析タスク...",
generation_config=types.GenerationConfig(
thinking_config=types.ThinkingConfig(thinking_budget=1024)
)
)
print(response.text)
ポイント: thinking_budgetを0にするとThinkingをオフにできる。コスト最優先の大量処理では0、精度が必要なタスクでは1024以上を設定する。
非同期バッチ処理の例(大量ログ分析)
import asyncio
import google.generativeai as genai
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
model = genai.GenerativeModel("gemini-3.1-flash-lite-preview")
async def classify_log(log_text: str) -> str:
"""1件のサポートログを分類する"""
response = await model.generate_content_async(
f"以下のログを「障害」「質問」「要望」に分類してください: {log_text}"
)
return response.text
async def process_batch(logs: list[str]) -> list[str]:
"""複数ログを並列処理"""
tasks = [classify_log(log) for log in logs]
return await asyncio.gather(*tasks)
# 使用例
logs = ["サービスに繋がらない", "パスワードリセット方法は?", ...]
results = asyncio.run(process_batch(logs))
動作環境: Python 3.10+, google-generativeai>=0.8.0, asyncio
よくある誤解
誤解1: 「Flash-LiteはFlashの単なる廉価版」
実際は 別設計のモデルだ。速度を最優先に最適化されており、出力速度はFlash(232 tokens/秒)を大きく上回る381 tokens/秒を記録している。廉価版というより、「速度・コスト特化型」と捉える方が正確だ。
誤解2: 「安いから精度が低い」
科学的知識ベンチマーク(GPQA Diamond)で86.9%、マルチモーダル理解(MMMU Pro)で76.8%というスコアは、コスト帯の中では高い水準だ。ただし複雑な推論や長い多段ステップのタスクでは、Flash以上を選ぶ方がよい場面もある。
誤解3: 「出力が冗長になる」
Artificial Analysisのベンチマークでは、評価テスト中に53Mトークンを出力し「平均(20M)の2倍以上」という結果が出ている。実際の用途でも、プロンプト設計で出力フォーマットを明示的に指定することを推奨する。
結局どうすればいいのか
シンプルな使い分けの判断基準を整理すると以下になる。
| ユースケース | 推奨モデル | 理由 |
|---|---|---|
| 大量テキスト分類・ラベリング | Flash-Lite | 速度が速く、繰り返し処理に最適 |
| 多言語翻訳(大量) | Flash-Lite | コスト優位性が大きい |
| 長文サマリー(大量バッチ) | Flash-Lite | 100Mトークンコンテキストも活用可 |
| 複雑な推論・分析 | Gemini 3 Flash | 品質と速度のバランス |
| コーディング・技術的推論 | Gemini 3.1 Pro / Claude 4 | 精度が必要な場面 |
| マルチモーダル(動画・音声含む) | Flash-Lite | 動画処理ベンチ(Video-MMMU)84.8% |
月間1億トークンを処理する場合、Haikuと比較するとFLash-Lite(入力コスト)では $25 vs $100 という差になる。ワークロードが大きいほど恩恵が増す。
Geminiシリーズの比較については、Gemini 3.1 Pro完全解説も参照してほしい。また複数LLMのコスト比較を含む実践評価については、Claude Opus 4.6 vs GPT-5.4 vs Gemini 3.1比較でまとめている。
参考・出典
- Gemini 3.1 Flash Lite: Our most cost-effective AI model yet — Google Blog(参照日: 2026-03-21)
- Gemini 3.1 Flash-Lite Preview — Intelligence, Performance & Price Analysis — Artificial Analysis(参照日: 2026-03-21)
- Google releases Gemini 3.1 Flash Lite at 1/8th the cost of Pro — VentureBeat(参照日: 2026-03-21)
- Gemini 3.1 Flash Lite Preview API Pricing — OpenRouter(参照日: 2026-03-21)
- Gemini 3.1 Flash Lite Preview API Pricing 2026 — pricepertoken.com(参照日: 2026-03-21)
あわせて読みたい:
- Gemini 3.1 Pro完全ガイド|ARC-AGIでの性能と実用評価 — 同シリーズの上位モデルとの比較
- Claude Opus 4.6 vs GPT-5.4 vs Gemini 3.1比較 — 主要LLMのコスト・性能横断比較
Gemini APIを使ったコスト最適化やLLM選定のご相談は、株式会社Uravationのお問い合わせフォームからお気軽にどうぞ。
この記事はAIgent Lab編集部がお届けしました。