ニュース

Sakana AI「Namazu」で日本語エージェント開発は変わるか——拒否率ゼロの衝撃

この記事の結論

Sakana AIが発表した日本語特化LLM「Namazu」を3つの視点で読み解く。拒否率72%→ほぼゼロの技術的意味と、日本語エージェント開発への影響を解説。




「日本語LLMの”拒否率問題”が、ようやく本気で解決されようとしている。」

Sakana AIが2026年3月24日に発表した「Namazu(ナマズ)」は、単なる新モデルではありません。DeepSeekやLlamaのような海外フロンティアモデルを「日本仕様に再設計する」という、まったく異なるアプローチを提示しました。

特に刺さったのは、この数字です。ベースモデル(DeepSeek V3.1)は特定の政治・外交的質問に対して約72%の確率で回答を拒否していた。Namazuに変換した後は、その拒否率がほぼゼロになったと報告されています。

日本語エージェント開発者にとって、これはどんな意味を持つのか。本記事では3つの視点から掘り下げます。


Namazuとは何か — まず基本を整理する

Namazuは、Sakana AIが2026年3月24日に発表した日本語特化型LLMシリーズです。「α版(アルファ)」と銘打たれており、現時点はまだプロトタイプの段階。モデルウェイトも未公開で、Sakana Chatというチャットサービス経由でのみ体験できます。

名前の由来は「ナマズ」。地震を予知すると言われる日本の伝説の魚から来ていると考えられます(公式には説明なし)。

AIエージェントの基礎から学びたい方はAIエージェント構築完全ガイドも参照してください。

なぜ今、日本語特化モデルが重要なのか

2025〜2026年にかけて、日本語エージェント開発の現場では「使えるが使いにくい」という課題が積み上がっています。性能は申し分ないが、日本語の文化的文脈や政治的センシティビティで突然回答を拒否される。そういう体験が蓄積しています。

Namazuはこのペインをターゲットにしたプロジェクトです。

Namazuを3つの視点で読み解く

視点1:「作る」ではなく「変換する」という技術的選択

Namazuの根本的なアイデアは「日本語に特化した大規模モデルをスクラッチで学習する」ことではありません。すでに世界最高水準の性能を持つオープンウェイトモデルを選び、事後学習(post-training)だけで日本仕様に変換するというアプローチです。

現時点で発表されているNamazuシリーズのベースモデルは以下の3つです。

モデル名 ベースモデル パラメータ規模 特徴
Namazu-DeepSeek-V3.1-Terminus DeepSeek V3.1 非公開(推定670B規模) コーディング・推論が得意なベース
Llama-3.1-Namazu-405B Meta Llama 3.1 405B 405B 多言語対応の幅広い知識ベース
Namazu-gpt-oss-120B gpt-oss-120B 120B OpenAI系のオープンウェイト版

ベースモデル情報の最終確認: 2026-03-27(Sakana AI公式発表より)

Sakana AIは、主要ベンチマーク(AIME ’25、MMLU-Redux、GPQA Diamond、LiveCodeBench、IFEval)において「Namazuはベースモデルと遜色ない性能を維持している」と主張しています。スクラッチ学習では発生しがちな「日本語に特化した結果として英語・コーディング性能が下がる」問題を、事後学習だけで回避しようとしているわけです。

この方向性は、実は非常に合理的です。フロンティアモデルの学習には数百億円規模の計算コストがかかります。日本のスタートアップがそこに正面から挑むより、すでに世界トップクラスの汎用性能を持つモデルを「日本のコンテキストで正しく使えるよう調整する」ほうが、現実的な差別化戦略です。

視点2:「拒否率ゼロ」が日本語エージェントにとって意味すること

ここが一番重要な点です。

現在、日本語エージェント開発で最もよく聞く問題の一つが「思ったより答えてくれない」というものです。企業の内部資料を要約させようとしたら断られた、競合他社について調査させたら曖昧な回答しか返ってこなかった、政治・歴史的文脈を含む質問で急にトーンが変わった——そういったケースです。

Namazuが解決しようとしているのはまさにこれです。特定のベースモデルが72%拒否していた質問への回答率をほぼゼロに下げた、というのは技術的には相当な変換量です。

ただし、正直に言うとまだ判断がつかない部分もあります。

「中立的・多角的な回答」と「有害な回答」のバランスをどう取るか。拒否率を下げることで、意図せず危険なコンテンツも生成しやすくなっていないか。現時点ではNamazuのモデルウェイトが公開されておらず、Sakana Chat(日本国内限定サービス)での体験のみが外部評価の手段です。技術レポートも「後日公開予定」とされており、独立した検証はこれからです。

視点3:「日本語エージェント」の本命バックエンドになれるか

エージェント開発者の視点で見ると、Namazuに期待したいのは「ツールコールの信頼性」と「長い日本語指示への忠実さ」です。

現時点でのNamazuの状況を整理します。

  • Sakana Chat: Web検索統合のチャットサービス。日本国内限定で無料公開中(2026-03-24〜)
  • モデルウェイト: 「複数のNamazuモデルのウェイトを将来公開予定」と発表。現時点では未公開
  • API: 現時点では未提供。Sakana Chatのみがアクセス手段
  • 技術レポート: 後日公開予定

つまり、今のところDifyやn8n、LangGraphのバックエンドとして接続することはできません。ウェイトが公開されれば、自前のvLLMサーバーで動かしてエージェントのバックエンドにできる可能性があります。ただしLlama 3.1 405Bは405Bパラメータ、DeepSeek V3.1ベースとなれば数百Bというサイズで、セルフホストの敷居は高いです。

現実的なエージェント用途を考えると、Namazu-gpt-oss-120B(120B)が最も現実的なセルフホスト候補になるでしょう。


Namazuが公開されたら何ができるようになるか

現時点でモデルウェイトは未公開ですが、公開後の可能性を考えておくことは有益です。

Namazuシリーズで最も現実的なセルフホスト候補はNamazu-gpt-oss-120B(120B)です。Llama 3.1 405Bや推定670B規模のDeepSeek V3.1ベースのモデルは、そのままではH100を複数枚必要とする大規模インフラが前提になります。

ウェイトが公開されれば、理論的にはOpenAI互換APIに変換してDify、n8n、LangGraphのバックエンドとして使えます。ただし、ツールコール(Function Calling)やStructured Outputのサポートがベースモデルのpost-training後に維持されているかは、ウェイト公開後の実機テストが必要です。

日本語エージェントのフレームワーク比較についてはAIエージェント開発フレームワーク7選で詳しく解説しています。

ウェイト公開後に備えるコード準備

ウェイトはまだ公開されていませんが、公開後にすぐ試せるよう接続コードを準備しておくことは有益です。vLLMとOpenAI互換APIを前提とした骨格を示します。

事例区分: 想定シナリオ
以下は、Namazuのモデルウェイトが公開されvLLM上でサーブされた場合の接続コード例です。現時点での動作を保証するものではありません。

from openai import OpenAI

# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
# 動作環境(想定): Python 3.11+, openai>=1.0.0, vLLM起動済み
# Namazuウェイト公開後にvLLM上でサーブした場合の接続例

client = OpenAI(
    base_url="http://localhost:8000/v1",  # vLLMサーバーのエンドポイント
    api_key="not-needed-for-local",
)

# Namazu-gpt-oss-120Bをバックエンドとして使用する場合
response = client.chat.completions.create(
    model="sakana-ai/Namazu-gpt-oss-120B",  # モデルID(公開後に確定)
    messages=[
        {
            "role": "system",
            "content": "あなたは日本語で正確に回答するアシスタントです。"
        },
        {
            "role": "user",
            "content": "日本の2024年衆院選の結果について、中立的な視点から要約してください。"
        }
    ],
    temperature=0.1,
    max_tokens=1024,
)
print(response.choices[0].message.content)

OpenAI互換APIとして提供されれば、LangGraphやDifyへの接続も同じインターフェースで実現できます。ウェイト公開のタイミングで実際のモデルIDと量子化形式を確認してください。

私の結論

Namazuは「日本語LLMの拒否率問題」という実在するペインに正面から挑んでいる点で、技術的に真剣なプロジェクトです。そして「スクラッチで作る」のではなく「フロンティアモデルを変換する」という戦略は、現時点で日本のスタートアップができる最も賢い選択の一つだと思います。

ただ、日本語エージェント開発の「本命バックエンド」になれるかは、ウェイト公開後の評価待ちです。ベンチマークで「ベースモデルと遜色ない」という主張が独立検証で確認され、ツールコールやStructured Outputの信頼性が確認されてから、実際のエージェント組み込みを判断するのが現実的な線引きです。

今できることは、Sakana Chatで日本語の応答品質を体感しておくこと。そしてウェイト公開のアナウンスをウォッチしておくことです。


参考・出典


AIエージェント開発のご相談は Uravation お問い合わせフォーム からどうぞ。

この記事はAIgent Lab編集部がお届けしました。

Need help moving from reading to rollout?

この記事を読んで導入イメージが固まってきた方へ

Uravationでは、AIエージェントの要件整理、PoC設計、社内導入、研修まで一気通貫で支援しています。

この記事をシェア

X Facebook LINE

※ 本記事の情報は2026年3月時点のものです。サービスの料金・仕様は変更される可能性があります。最新情報は各サービスの公式サイトをご確認ください。

関連記事