Nemotron-TwoTower：LLM生成を「一語ずつ」から「ブロックごと」に動かす試み

きょう取り上げるのは、NVIDIAの Nemotron-TwoTower-30B-A3B-Base-BF16 です。Hugging Face上のNVIDIAコレクションでは、このモデルが直近で更新され、Nemotron-TwoTowerの論文とモデルカードが公開されています。論文自体は arXiv:2606.26493 として登録され、Hugging Faceのモデルカードも、モデル本体・使い方・評価結果をあわせて示しています。(huggingface.co)

何が新しいのか

ポイントは、LLMの生成方法です。

いま主流の大規模言語モデルは、基本的に自己回帰型です。つまり、次の1トークンを予測し、その結果をまた入力に足して、さらに次の1トークンを予測する。とても安定した方式ですが、生成はどうしても「一語ずつ」進みます。

これに対して、Nemotron-TwoTowerは拡散型言語モデルの考え方を取り入れています。画像生成でよく知られる拡散モデルのように、最初はマスクされたトークンの塊を置き、それを何回かのステップで少しずつ埋めていく。これにより、複数トークンを並列に処理できる可能性があります。論文は、従来の拡散型言語モデルでは「文脈を読む役割」と「ノイズを除いてトークンを復元する役割」をひとつのネットワークが兼ねていた点を問題視し、これを二つの塔、つまりTwo Towerに分けました。(arxiv.org)

二つの塔とは何か

ひとつ目は、AR／Context Towerです。これは凍結された自己回帰モデルで、きれいなプロンプトや、すでに確定したトークンを因果的に処理します。ここでKVキャッシュやMambaの状態を作ります。

ふたつ目は、Diffusion／Denoiser Towerです。こちらは訓練される塔で、マスクされたトークンブロックを受け取り、ブロック内では双方向に見ながら、文脈塔からの情報を使って復元していきます。Hugging Faceのモデルカードでは、各ステップでブロック全体を予測し、信頼度が高い位置を確定し、残りを次のステップで再び処理する、という流れが説明されています。(huggingface.co)

ここが面白いところです。完全に自己回帰を捨てるのではありません。過去の文脈を安定して保持する部分には既存の自己回帰モデルを使い、未来のブロックをまとめて埋める部分だけを拡散的に動かす。つまり、既存LLMの強みを足場にして、生成速度のボトルネックを別の形で崩そうとしているわけです。

数字はどう読むべきか

NVIDIAの説明では、Nemotron-TwoTowerは Nemotron-3-Nano-30B-A3B を土台にしています。これは30B規模のハイブリッドMamba-Transformer MoEモデルです。TwoTower版では、文脈塔とデノイザー塔の二つを持つため、モデルカード上では全体で約60B、Hugging Face上の表示では63Bパラメータ級として扱われています。(huggingface.co)

評価で目を引くのは、デフォルト設定で自己回帰ベースラインの集約品質の98.7%を維持しつつ、wall-clock生成スループットで2.42倍と報告されている点です。設定は、信頼度しきい値0.8、ブロックサイズ16、BF16、2枚のH100 GPUです。(huggingface.co)

ただし、数字は丁寧に読む必要があります。たとえばモデルカードの個別ベンチマークでは、MMLUは78.56から78.24へとほぼ横ばいですが、HumanEvalは79.27から75.58、GSM8Kは92.49から90.14、MATH-500は84.40から80.60へ下がっています。つまり「品質をほぼ保った」と言える一方で、コードや数学では一定の劣化も見えます。(huggingface.co)

実用上の注意点

この発表は、すぐに「自己回帰型LLMが終わる」という話ではありません。

まず、Nemotron-TwoTowerはベースモデルです。論文では、評価対象はinstruction tuning、RL、alignmentの前のチェックポイントだと説明されています。したがって、一般ユーザーが期待するチャットアシスタントとしての完成度をそのまま意味するものではありません。(arxiv.org)

次に、TwoTowerという名前の通り、推論時には二つの塔を扱います。モデルカードでは、フルの二塔拡散推論には2GPU構成が示され、BF16重みでGPUあたり約59GBが必要とされています。一方で、ARのみのモードなら1GPUでも動かせると説明されています。速度が上がる一方で、メモリや実装の複雑さは軽くありません。(huggingface.co)

それでも、この研究の意味は大きいと思います。なぜなら、LLM高速化の議論はこれまで、KVキャッシュ最適化、投機的デコーディング、量子化、カーネル最適化のように、自己回帰生成を前提とした改善が中心でした。Nemotron-TwoTowerは、生成の前提そのものを少し動かしています。

今後の見どころ

今後注目したいのは三つです。

第一に、instruction tuningやRL後でも、この品質と速度のバランスが保てるか。

第二に、実サービス環境で、2.42倍というスループット改善がどこまで再現されるか。ベンチマーク上のwall-clock速度と、実際のサーバー運用でのレイテンシ、バッチング、メモリ効率は一致しないことがあります。

第三に、拡散型のブロック生成が、長い推論やコード生成でどこまで安定するか。複数トークンをまとめて進める方式は速い反面、途中で小さな誤りが入ったときの修正や整合性維持が課題になり得ます。

今回の発表は、派手なチャットモデルのリリースというより、LLMの「生成エンジン」を作り替える研究に近いです。自己回帰モデルの完成度を活かしながら、拡散モデルの並列性を足す。Nemotron-TwoTowerは、その折衷案が大規模なオープンウェイトモデルとしてどこまで成立するのかを試す、かなり興味深い一歩です。