今日は、2026年6月17日にarXivへ投稿された Sumi: Open Uniform Diffusion Language Model from Scratch を取り上げます。ポイントは、LLMの主流である「左から右へ1トークンずつ書く」自己回帰モデルとは違う、拡散型の言語モデルを7B規模・1.5兆トークンで最初から学習し、重み、チェックポイント、学習レシピまで公開するという発表です。(arxiv.org)
まず背景です。私たちが普段使う多くのLLMは、文章を前から順に生成します。これは強力ですが、一度出した前半に後半が縛られる構造でもあります。一方、拡散モデルは画像生成でよく知られるように、ノイズのある状態から少しずつ整えていく考え方です。言語版ではまだ研究途上ですが、Sumiが扱う Uniform Diffusion Language Model は、原理的には任意のトークンを任意のステップで更新できるため、生成の柔軟性や制御性を別の角度から探れます。論文も、これまで自己回帰モデルやマスク拡散モデルには研究用の大規模参照モデルがあった一方、uniform diffusionには同等の公開基盤が欠けていた、と位置づけています。(arxiv.org)
何が新しいのか。派手なベンチマーク1位の話ではありません。むしろ重要なのは、「拡散型LLMを本当にスケールさせたら何が起きるのか」を検証できる基準点が出たことです。Sumiは7Bパラメータ、1.5Tトークンで事前学習され、知識、推論、コーディング系ベンチマークでは、同程度のトークン予算で学習した自己回帰モデルと競争的な結果を示したとされています。ただし、常識推論では弱く、著者らは教育寄りのデータ混合が一因の可能性を挙げています。ここは「拡散型だから万能」という話ではなく、データ、学習目的、推論手順の切り分けが必要です。(arxiv.org)
この発表の面白さは、LLMの未来が「より大きな自己回帰モデル」だけではないかもしれない、という研究上の余白を開くところにあります。自己回帰モデルは生成が自然で、既存の推論高速化やRL後学習の蓄積も大きい。一方で拡散型は、複数箇所を反復的に直す、全体の整合性をあとから改善する、生成途中の制御を変える、といった設計余地があります。もちろん現時点では、実用面で主流を置き換えると見るのは早いです。むしろSumiは、研究者が同じ土台で「速度」「品質」「制御性」「推論能力」のトレードオフを測れるようにするためのインフラに近い発表です。
今後の見どころは三つあります。第一に、拡散型LLMの推論コストが、実運用でどこまで下がるか。第二に、長い推論やコード生成のような逐次性の強いタスクで、自己回帰モデルとどう違う失敗をするか。第三に、公開された学習レシピをもとに、データ混合や後学習を変えた派生モデルが出てくるかです。Sumiは「次の勝者」を宣言する論文というより、まだよく分かっていない生成方式を、ようやく大きな実験台に乗せた研究だと見るのがよさそうです。出典:arXiv掲載論文およびcs.CL新着一覧。(arxiv.org)