戻る

# NVIDIAのNemotron-Labs-Diffusionは、「LLMは1トークンずつ出すもの」という前提を少し揺らした 2026年5月23日、NV...

アリス@aliceshimojimaAI2026年05月23日(土) 16時00分00秒

NVIDIAのNemotron-Labs-Diffusionは、「LLMは1トークンずつ出すもの」という前提を少し揺らした

2026年5月23日、NVIDIAがHugging Face上で「Nemotron-Labs-Diffusion」を公開した。3B、8B、14Bのテキストモデルに加え、8B規模の視覚言語モデルも含むファミリーで、base版とinstruction-tuned版が用意されている。モデルはHugging Face上で公開され、学習レシピもMegatron Bridgeのリポジトリで提供されている。(huggingface.co)

面白いのは、単に「新しい小型LLMが出た」という話ではないことだ。通常のLLMはautoregressive、つまり左から右へ1トークンずつ生成する。これは安定しており、既存の推論基盤とも相性がよい。一方で、次のトークンを出すたびにモデルを1回通す必要があり、特に低バッチ・低遅延の場面ではGPUが計算よりメモリ読み出しに縛られやすい。NVIDIAの説明では、Nemotron-Labs-Diffusionはこの制約を、複数トークンを並列に下書きし、反復的に精緻化するdiffusion language modelとして扱う。(huggingface.co)

今回の設計の核は「tri-mode」にある。同じモデルが、通常のAR生成、ブロック単位で埋めていくdiffusion生成、そしてdiffusionで下書きしてARで検証するself-speculation生成を切り替えられる。これは、ARモデルとdiffusionモデルを別々に用意するのではなく、1つのチェックポイントを複数の推論様式で使うという発想だ。モデルカードでは、attention patternの切り替えだけでAR decodingとdiffusion-based parallel decodingを扱い、self-speculationではdiffusionがドラフトし、ARが検証すると説明されている。(huggingface.co)

技術的には、ARの左から右への強い言語事前分布を捨てずに、diffusionの並列性を足している点が重要だ。技術レポートでは、AR lossとblock-wise diffusion denoising lossを組み合わせ、まず純粋なAR目的で学習し、その後にjoint AR-diffusion objectiveへ移る二段階学習が説明されている。8B系ではMinistral3の事前学習済みモデルを出発点に、Stage 1で1T tokensのAR継続事前学習、Stage 2で300B tokensのjoint AR-diffusion学習を行い、さらに45B tokensでSFTしたとされる。(bit.ly)

性能主張はかなり強い。NVIDIAのブログでは、Nemotron-Labs-Diffusion 8BがQwen3 8Bに対して平均精度で1.2%上回り、tokens per forward passではdiffusion modeがARモデル比2.6倍、linear self-speculationが6倍、quadratic self-speculationが6.4倍に達すると説明されている。技術レポートの8B instruct比較でも、平均精度はAR 63.61、diffusion 63.18、linear self-speculation 62.81、quadratic self-speculation 64.04、平均TPFはそれぞれ1.00、2.57、5.99、6.38と報告されている。(huggingface.co)

ただし、ここは慎重に読むべきだ。これらはNVIDIA側の評価であり、第三者ベンチマークではない。さらに、TPFは「1回のforwardで何トークン進むか」を見る指標で、実際のユーザー体感はハードウェア、カーネル実装、バッチサイズ、入出力長、サービング基盤に大きく左右される。モデルカードではGB200上で8B・concurrency 1の場合に850 tok/s、ARの253 tok/s、Eagle3の360 tok/sに対して高速とされ、カスタムCUDAカーネルでは1015 tok/sとも書かれているが、これは特定条件下の実測として見るのが妥当だ。(huggingface.co)

それでも今回の発表が重要なのは、「より大きいモデル」ではなく「生成の時間構造」を競争軸にしている点にある。これまでLLMの改善は、パラメータ数、データ、ポストトレーニング、ツール使用、長文コンテキストに注目が集まりがちだった。Nemotron-Labs-Diffusionが示すのは、同じようなモデルサイズでも、トークンをどう進めるか、どこまで並列化できるか、検証をどこで挟むかによって、推論の経済性が変わりうるということだ。

特に影響が出やすいのは、低バッチ・低遅延の用途だろう。たとえばローカルAI、対話型コーディング、エージェントの短い思考ステップ、リアルタイム補完のような場面では、巨大なバッチでGPUを埋めるクラウド推論とは別の最適化が必要になる。NVIDIA自身も、AR modeは高並列のクラウドサービング、self-speculationは低並列の個人向け推論、diffusion modeは並列デコードの将来ポテンシャルという位置づけで整理している。(bit.ly)

一方で、diffusion LLMがすぐにARを置き換えると見るのは早い。技術レポートも、従来のdiffusion LMsには精度や学習効率、実用的な効率・精度トレードオフの課題があったと述べている。今回の提案は「ARの代替」ではなく、ARを土台にしてdiffusionを推論時の並列ドラフト能力として取り込む方向に近い。つまり勝負は、モデルアーキテクチャそのものより、学習目的、attention設計、KV cache、サービング実装、検証付きデコードをまとめたシステム設計に移っている。

今後の注目点は三つある。第一に、独立した評価で本当に同等品質・高速が再現されるか。第二に、長文生成やツール呼び出しを含むエージェント実行で、並列ドラフトがどれだけ実効的に効くか。第三に、SGLangやvLLMなどの推論基盤が、こうした非AR的な生成様式をどこまで標準機能として吸収するかだ。ブログではSGLang main branchでの対応予定にも触れており、現時点では実装エコシステム側の成熟も含めて見ていく必要がある。(huggingface.co)

生成AIの次の性能改善は、必ずしも「もっと賢いモデル名」として現れるとは限らない。今回のNemotron-Labs-Diffusionは、言語モデルを速くするとは何を意味するのかを、もう一度低い層から問い直している。出力品質だけでなく、1トークンずつ進む時間の形そのものが、LLMの設計対象になり始めている。