NVIDIAが、GTC 2026の開催(3月16〜19日)を直前に控えた2026年3月11日、突如として新しいオープンモデル「Nemotron 3 Super」を発表した。
正直、これは驚いた。120Bという大規模パラメータを持ちながら、推論時に使うのはわずか12B。それで同規模のGPT-OSS-120BやQwen3.5-122Bを上回るスループットを出す、というのだから。アーキテクチャの設計思想が根本から違う。
私はこのモデルを3つの視点で読み解こうと思う。技術的な革新性、業界への実務インパクト、そしてNVIDIAという会社が何を目指しているのか——というビジネス戦略の文脈だ。
視点1: 技術的革新——なぜ「120B総パラメータ・12Bアクティブ」が可能なのか
まずアーキテクチャから理解する必要がある。Nemotron 3 Superは一言で言えば「ハイブリッドMamba-Transformer MoE」だ。これだけでは意味不明なので、3つの技術的革新を順に解説しよう。
革新1:Mamba-2レイヤーによる線形時間計算
従来のTransformerモデルは、コンテキスト長が長くなるほど計算コストが二乗で増加する(O(n²))。100万トークンのコンテキストウィンドウなど、現実的には扱えない。
Mamba-2レイヤーはこれを線形時間(O(n))で処理する。高速道路と例えると分かりやすい。Mamba-2がシーケンスの大部分を「高速道路」で処理し、戦略的な位置にのみTransformerアテンション層を配置する。この設計により、100万トークンのコンテキストウィンドウを実用的に扱えるようになった。マルチエージェントシステムでワークフローの全状態をメモリに保持しながら動作できるのも、この特性のおかげだ。
革新2:LatentMoE(潜在MoE)による4倍の専門家活用
Mixture-of-Experts(MoE)アーキテクチャ自体は新しくない。120Bのパラメータを「専門家(Expert)」に分割し、各トークンの処理には一部の専門家だけを使う、というのが基本的な考え方だ。これにより「12Bアクティブ」が実現する。
Nemotron 3 Superが面白いのは「LatentMoE(潜在MoE)」という独自の改良を加えた点だ。専門家へのルーティング判断を行う前に、トークン埋め込みを圧縮された低ランク潜在空間に投影する。専門家の計算をこの小さな次元で行い、その後フルモデル次元に展開する。
結果として、同じ計算コストで4倍の数の専門家を活用できる。つまり、知識の「使いこなし効率」が4倍になる。
革新3:マルチトークン予測(MTP)とNVFP4による速度最適化
通常のLLMは1トークンずつ逐次生成する。Multi-Token Prediction(MTP)レイヤーは複数の将来トークンを同時予測し、推論時に最大3倍の高速化を実現する(公式テクニカルレポートより)。
さらにNVFP4(4ビット浮動小数点形式)でネイティブ事前学習を行うことで、FP8精度と比較して最大4倍高速な推論をBlackwell GPU上で実現する。
この3つの革新が組み合わさった結果が、以下の性能数値だ。
ベンチマーク比較表
| 項目 | Nemotron 3 Super | GPT-OSS-120B | Qwen3.5-122B |
|---|---|---|---|
| 総パラメータ | 120B | 120B | 122B |
| アクティブパラメータ | 12B | 120B(Dense) | 非公開 |
| コンテキストウィンドウ | 100万トークン | 128K | 128K |
| 推論スループット比 | 1.0×(基準) | 0.45× | 0.13× |
| PinchBench(エージェント) | 85.6%(最高) | — | — |
| アーキテクチャ | Hybrid MoE | Dense Transformer | MoE Transformer |
出典: NVIDIA Technical Blog(2026年3月11日)、Artificial Analysis Intelligence Index(参照日: 2026-03-14)
スループット比較では、GPT-OSS-120Bの2.2倍、Qwen3.5-122Bの7.5倍(8Kトークン入力・16Kトークン出力設定での計測値、NVIDIA公式)という数字が出ている。ただし、Artificial Analysisの独立テストでは、Qwen3.5-122BがIntelligence Indexで42点(Nemotron 3 Superは36点)と精度面でリードを保っているという指摘もある。スループット優先か精度優先か、用途によって選択が分かれる。
AIエージェントの基本概念や構築パターンについては、AIエージェント構築完全ガイドで体系的にまとめている。モデル選定の前に基礎を確認したい方はこちらも参照してほしい。
視点2: 業界への実務インパクト——なぜ「業界特化」が重要なのか
Nemotron 3 Superの設計目標は「汎用LLM」ではない。「複雑なマルチエージェントアプリケーション」——具体的にはソフトウェア開発とサイバーセキュリティトリアージだ。この絞り込みには明確な理由がある。
なぜソフトウェア開発とサイバーセキュリティなのか
この2つの領域には共通した特性がある。
- 膨大なコンテキストが必要: ソフトウェア開発エージェントは、コードベース全体をコンテキストに保持しながらエンドツーエンドのコード生成・デバッグを行う。100万トークンのコンテキストウィンドウが初めて実用に耐える。
- 高精度のツール呼び出しが必要: サイバーセキュリティ領域では、自律型セキュリティオーケストレーションのような高リスク環境で、エージェントが巨大な関数ライブラリを確実にナビゲートしなければならない。Nemotron 3 Superの高精度ツールコール機能はここで活きる。
- レイテンシとコストのトレードオフが厳しい: 複数エージェントが並列実行されるマルチエージェントシステムでは、スループットがそのままコストに直結する。5倍の高スループットは5分の1のコストを意味しうる。
早期採用企業の顔ぶれが語るもの
NVIDIAが発表した早期採用企業のリストを見ると、戦略が透けて見える。
- コンサルティング大手: Accenture、Deloitte、EY
- サイバーセキュリティ: CrowdStrike、Palantir
- ソフトウェア開発ツール: Cursor、CodeRabbit、Factory、Greptile
- エンタープライズSaaS: ServiceNow、Zoom、Oracle Cloud Infrastructure
- 製造・半導体設計: Cadence、Synopsys、Siemens
- AI検索: Perplexity
この顔ぶれで興味深いのは、大手クラウドプロバイダー(AWS、Azure、GCP)が入っていない点だ。NVIDIAは彼らではなく、クラウドを「使う側」の企業エコシステムをターゲットにしている。
Nemotron 3 Nano との組み合わせパターン
実務での活用を考えるとき、SuperはNanoと組み合わせて使うことが公式に推奨されている。
| タスク種別 | 推奨モデル | 理由 |
|---|---|---|
| シンプルな質疑応答・分類 | Nemotron 3 Nano | 低コスト・低レイテンシ |
| 複雑な推論・コード生成 | Nemotron 3 Super | 高精度・長コンテキスト |
| コードベース全体の把握 | Nemotron 3 Super | 100万トークンコンテキスト |
| セキュリティアラートトリアージ | Nemotron 3 Super | 高精度ツール呼び出し |
ソフトウェア開発エージェントであれば、「PR概要の要約→Nano、コードレビュー→Super、バグ修正提案→Super、コミットメッセージ生成→Nano」というようなルーティング設計が現実的だ。
実際にどこで使えるのか
現時点でNemotron 3 Superが利用可能なプラットフォームは以下の通りだ(参照日: 2026-03-14)。
- NVIDIA NIM(build.nvidia.com) — APIエンドポイントとして即利用可能
- Perplexity — AI検索エンジン内での採用
- OpenRouter — 他モデルとのルーティング利用
- Google Cloud — エンタープライズ向け
- Fireworks AI — 高速推論サービス
- Nebius Token Factory — 欧州向けクラウド
- Hugging Face — モデルウェイト(FP8版)として公開
ローカルでの利用は、LM Studioがすでにサポートを表明している。ただし120Bモデルをローカルで動かすには相当なGPUメモリが必要で、現実的には量子化版(GGUF等)が主流になるだろう。
視点3: NVIDIAの「ハードウェア×ソフトウェア×オープンモデル」戦略の本質
正直に言うと、Nemotron 3 Superという単体モデルの話だけでは、NVIDIAが何を考えているのか分からない。GTC 2026直前に発表した文脈で見て初めて、その戦略的意図が見えてくる。
$260億ドルのオープンウェイト投資と「CUDAモート」の再構築
NVIDIAは今後5年間でオープンウェイトAIモデルの開発に260億ドル(約3,900億円)を投資すると表明している(2025年財務報告書に記載)。これは単なるモデル開発への投資ではない。
NVIDIAの伝統的な競争優位はCUDA——NVIDIA GPUでしか動かないプログラミングエコシステムだ。しかし、AIモデルの世界では、GPT-OSS(OpenAI)やQwen(Alibaba/中国系オープン)が急成長し、クローズドモデルへの依存から企業が離れつつある。
オープンウェイトモデルを大量に供給することで、NVIDIAはこのロジックを逆手に取る。「Nemotronを使いたければ、NVIDIAのGPUで動かすのが最適」というエコシステムを構築する。特にNVFP4という独自量子化フォーマットはBlackwell GPUで最大の恩恵を受ける設計になっており、モデル→ハードウェアへの誘導が巧みだ。
Vera Rubin GPUと1GW規模のデプロイ
GTC 2026では、次世代GPUアーキテクチャ「Vera Rubin(R200)」に関する詳細発表も予定されている。Vera Rubin GPUはArm系「Vera CPU」との組み合わせで、288GBのHBM4メモリ(6.4 GT/s)、50 FP4 PetaFLOPS性能、前世代比5倍の推論性能を謳う(Tom’s Hardware, 2026年3月)。
NVIDIAはGTC 2026の直前、2026年3月10日に元OpenAI CTOのMira Murati氏率いる「Thinking Machines Lab」との戦略的パートナーシップを発表した。内容は、少なくとも1ギガワット規模のVera Rubin AIシステムを多年度にわたって展開するというもの。NVIDIAはThinking Machines Labへの出資も行っている(金額は未公開)。
1GWという規模感を理解するために補足すると、AIデータセンターの電力消費で1GWは数千台のGPUサーバーラックを意味する。これがNemotronオープンモデルの「フロンティアモデル訓練とカスタマイズ可能なAIプラットフォーム」に使われるという構図だ。
オープンモデル戦略の矛盾と賭け
ただし、この戦略には明確な矛盾も存在する。NVIDIAが最大顧客(Googleなど)と競合するモデルを提供し始めると、顧客が独自チップ開発を加速させる動機が増す。実際、GoogleのTPUやAWSのTrainiumは着実に進化している。
要するに、NVIDIAは「エコシステム牽引役」としてオープンモデルを使うが、それが行き過ぎると顧客離れという副作用が生じる。このバランスをどこで取るか——それがNVIDIAの賭けだ。私の見方では、ハードウェア独占が崩れない限り(つまりBlackwellやVera Rubinの性能が際立って優れている間は)、このオープン戦略は有効に機能する。
【要注意】Nemotron 3 Superを使う際の落とし穴と注意点
注意点1: PinchBenchスコアへの過信は禁物
PinchBenchで85.6%という数字はオープンモデル最高だが、注意が必要だ。PinchBenchはOpenClawエージェントの「脳」としての性能を測定する独自ベンチマークであり、すべてのエージェントユースケースに適用できるわけではない。
Artificial Analysisの独立評価ではIntelligence Index 36点(GPT-OSS-120Bの33点より高いが、Qwen3.5-122Bの42点より低い)という結果が出ている。精度重視のタスクではQwen3.5が依然として競争力を持つ可能性がある。
✅ 正しいアプローチ: 自分のユースケースに近いベンチマークで比較評価する。NVIDIAの数字だけを鵜呑みにしない。
注意点2: 100万トークンコンテキストの実用条件
100万トークンのコンテキストウィンドウは理論値だ。実際にこれを使うためには、それに見合ったGPUメモリが必要になる。超長コンテキストでの推論パフォーマンスは、短コンテキストのベンチマーク数値とは大きく異なる場合がある。
✅ 正しいアプローチ: 実際のユースケースで試した際のコンテキスト長と性能の関係を自分で計測する。「100万トークン使える」を「常に100万トークン使っても速い」と誤解しない。
注意点3: Thinking Machines Labパートナーシップは2027年展開予定
NVIDIAとThinking Machines LabのVera Rubin 1GWパートナーシップは、「来年初め(early next year)」の展開を目標としている。発表が2026年3月のため、実際のVera Rubin大規模展開は2027年初頭が現実的な目線だ。
✅ 正しいアプローチ: 現在利用可能なのはBlackwell GPUでの展開。Vera Rubin世代の恩恵を受けるのは2027年以降という計画で動く。
注意点4: オープンウェイトの意味を確認する
「オープン」と「オープンソース」は違う。Nemotron 3 SuperはモデルウェイトがHugging Faceで公開されているが、ライセンスをきちんと確認する必要がある(商用利用条件、改変条件)。NVIDIAのモデルはApache 2.0ライセースではない場合もある。
✅ 正しいアプローチ: 商用利用前にHuggingFaceのモデルカードでライセンス条件を確認する。
開発者が今すぐできること
GTC 2026(3月16〜19日)前後での動きとして、具体的に取れるアクションを整理した。
-
build.nvidia.comでAPIを試す: NVIDIA NIMで即日利用可能。APIキーを取得してサンプルコードを動かしてみることが最短の評価手段だ。
# 動作環境: Python 3.11+, openai>=1.30.0 # 必要パッケージ: pip install openai # 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。 from openai import OpenAI client = OpenAI( base_url="https://integrate.api.nvidia.com/v1", api_key="YOUR_NVIDIA_API_KEY" # 環境変数 NVIDIA_API_KEY を使うこと ) completion = client.chat.completions.create( model="nvidia/nemotron-3-super-120b-a12b", messages=[ { "role": "system", "content": "あなたは高度なコードレビューエージェントです。コードの問題点を具体的に指摘してください。" }, { "role": "user", "content": "以下のPythonコードをレビューしてください:nndef calculate_average(nums):n return sum(nums) / len(nums)n" } ], temperature=0.2, max_tokens=1024 ) print(completion.choices[0].message.content)ポイント:
temperature=0.2は推論系タスクに適した設定。コード生成・分析では低めの値を推奨。 -
Nano + Super のルーティング設計を検討する: コスト最適化のために、タスク複雑度でモデルを切り替える設計を検討する。以下は簡単なルーティング例だ。
# 動作環境: Python 3.11+ # 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。 def select_nemotron_model(task_type: str) -> str: """ タスク種別に応じてNemotronモデルを選択する。 コストと精度のバランスを考慮したルーティング。 """ # シンプルなタスク: Nanoを使用(低コスト・高速) simple_tasks = [ "classify", # テキスト分類 "summarize_short", # 短文要約 "extract_entity", # 固有表現抽出 "format", # フォーマット変換 ] # 複雑なタスク: Superを使用(高精度・長コンテキスト) complex_tasks = [ "code_review", # コードレビュー "code_generation", # コード生成 "security_triage", # セキュリティ分析 "multi_step_reasoning",# 多段階推論 "long_context_qa", # 長文Q&A ] if task_type in complex_tasks: return "nvidia/nemotron-3-super-120b-a12b" else: return "nvidia/nemotron-3-nano-30b-a8b" # 使用例 task = "code_review" model = select_nemotron_model(task) print(f"タスク '{task}' -> 使用モデル: {model}") - GTC 2026の発表内容を追う: 3月16〜19日のGTC 2026では、Vera Rubin GPUの詳細、NVIDIAのオープンモデル戦略のアップデート、Jensen Huang基調講演での新発表が予定されている。Nemotron 3 Superと関連する新情報が出る可能性が高い。NVIDIA公式ブログ(blogs.nvidia.com/blog/gtc-2026-news/)をフォローしておくとよい。
私の結論
Nemotron 3 Superは「単なるオープンモデルのリリース」ではない。NVIDIAがハードウェア企業からフルスタックAI企業に転換しようとしていることの証左だ。
技術的には、ハイブリッドMamba-Transformer MoEというアーキテクチャが業界に与えるインパクトは大きい。「全パラメータをアクティブにしないと高精度が出ない」という常識を覆す可能性がある。100万トークンのコンテキストウィンドウと5倍のスループットが同時に実現するなら、マルチエージェントシステムの設計はこれまでとは違う前提で考えられるようになる。
一方で、まだ判断がつかないこともある。Qwen3.5との精度トレードオフが実務でどう出るのか、Vera Rubin世代での性能がどこまで向上するのか、ライセンス条件が商用利用に本当に問題ないのか——この点はもう少し時間が必要だ。
ただ、AIエージェント開発者として今すぐやれることは明確だ。build.nvidia.comでAPIを試し、自分のユースケースに合うかどうかを自分で判断すること。特にソフトウェア開発エージェントやセキュリティ自動化を検討しているチームには、Nemotron 3 Superは有力な選択肢になると見ている。
参考・出典
- Introducing Nemotron 3 Super: An Open Hybrid Mamba-Transformer MoE for Agentic Reasoning — NVIDIA Technical Blog(参照日: 2026-03-14)
- New NVIDIA Nemotron 3 Super Delivers 5x Higher Throughput for Agentic AI — NVIDIA Blog(参照日: 2026-03-14)
- NVIDIA Debuts Nemotron 3 Family of Open Models — NVIDIA Newsroom(参照日: 2026-03-14)
- NVIDIA Nemotron 3 Super: Technical Report — NVIDIA Research(2026-03-11)
- NVIDIA and Thinking Machines Lab Announce Long-Term Gigawatt-Scale Strategic Partnership — NVIDIA Blog(参照日: 2026-03-14)
- Nvidia delivers first Vera Rubin AI GPU samples to customers — Tom’s Hardware(参照日: 2026-03-14)
- Nvidia’s new open weights Nemotron 3 super combines three different architectures to beat gpt-oss and Qwen in throughput — VentureBeat(参照日: 2026-03-14)
—
あわせて読みたい:
- AIエージェント構築完全ガイド — マルチエージェントシステムの設計パターンと実装
- AIエージェント構築ツール徹底比較 — Dify・n8n・LangChain等の選定ガイド
この記事はAIgent Lab編集部がお届けしました。