GoogleがGemini 3.1 Flash-Liteを発表。従来比2.5倍の応答速度と45%の出力高速化を実現し、入力100万トークンあたり$0.25の低価格。軽量AIエージェントの新標準となる可能性を検証する。
Flash-Liteのスペック
| 項目 | Flash-Lite | Flash | Pro |
|---|---|---|---|
| 応答速度 | 2.5x高速 | 基準 | 0.5x |
| 出力速度 | 45%高速 | 基準 | 0.3x |
| 入力コスト | $0.25/1M | $0.50/1M | $3.00/1M |
| コンテキスト | 1M | 1M | 2M |
AIエージェントでの活用シーン
1. 高頻度呼び出しエージェント
ルーティング、分類、フィルタリングなど1秒以内の判断が必要な処理にFlash-Liteは最適。コストが1/12のため、大量呼び出しでも予算を抑えられる。
2. マルチエージェントのワーカー
オーケストレーターはPro/Opusクラスを使い、個別タスクを実行するワーカーエージェントにFlash-Liteを割り当てる構成。
3. リアルタイムモニタリング
ログ監視、異常検知、チャットボットの初期応答など、低レイテンシが求められる場面。
Claude Haikuとの比較
同じ軽量モデルカテゴリのClaude Haiku 4.5と比較すると、Flash-Liteはコストで優位($0.25 vs $0.80/1M input)。一方、推論品質ではHaikuが上回る場面もあり、ユースケースで使い分けが必要。
実装例
import google.generativeai as genai
model = genai.GenerativeModel('gemini-3.1-flash-lite')
response = model.generate_content(
"この顧客メールの感情を分析: ポジティブ/ネガティブ/ニュートラル",
generation_config={"max_output_tokens": 10}
)
print(response.text) # "ポジティブ"
参考文献
この記事はAIgent Lab編集部がお届けしました。