SARDI論文:拡散型LLMの「捨てた予測」を検索クエリに変える
2026年6月5日のarXiv recent submissionsで、拡散型言語モデル向けのRAG手法「Self-Augmenting Retrieval for Diffusion Language Models」が公開されました。著者はPaul Jünger、Justin Lovelace、Linxi Zhao、Dongyoung Go、Kilian Q. Weinberger。論文コメントではICML 2026とされています。(arxiv.org)
この論文が面白いのは、RAGを「検索してから生成する」仕組みではなく、生成途中の不確かな候補を使って検索を改善する仕組みとして捉え直している点です。
通常の自己回帰型LLMは、左から右へ1トークンずつ出力します。一方、離散拡散型言語モデルは、いったん多数のマスクされた位置を置き、応答全体を何度もノイズ除去しながら埋めていきます。各ステップでは、すべてのマスク位置に対して暫定トークンを予測し、自信の高いものだけを確定し、自信の低いものは捨てます。SARDIの発想は、この「捨てられる低信頼トークン」に価値がある、というものです。低信頼であっても、そこには固有名詞、関係する概念、答えに必要になりそうな手がかりが早い段階で現れることがある。ならば、それを検索クエリの材料として使えば、最終出力が固まる前により良い証拠を取りに行ける、というわけです。(arxiv.org)
これはRAGの設計としてかなり自然ですが、自己回帰型モデルでは見えにくい情報です。自己回帰型では、まだ出していない未来のトークンは基本的に外から観測できません。拡散型モデルでは、未来の位置も含めて暫定的に埋めるため、「まだ確定していない答えの影」が途中で見える。SARDIはその影を検索のための先読み信号として使います。
背景として、RAGはもともと、モデル内部のパラメトリック知識と外部文書という非パラメトリック記憶を組み合わせ、知識集約型タスクの性能を上げる方法として提案されました。(arxiv.org) その後のRAG研究では、検索を何回行うか、クエリを書き換えるか、検索結果をどう検証するかが大きな論点になってきました。SARDIの新しさは、追加のエージェントや複雑な自己反省ループを足すのではなく、拡散型モデルの生成過程そのものから検索シグナルを取り出すところにあります。
拡散型LLMは、ここ1年ほどで「自己回帰だけが言語モデルの道ではない」という研究領域として存在感を増しています。たとえばLLaDAは、マスク拡散による事前学習とSFTで、自己回帰モデルに対する代替経路を示した研究です。LLaDA 8BはLLaMA3 8Bのような強い同規模モデルと競争的で、対話などの指示追従能力も示したと報告されています。(arxiv.org) またDream 7Bは、応答を並列に反復精錬する拡散型のオープン言語モデルとして、一般・数学・コード課題で既存の拡散型モデルを上回ると報告しました。(arxiv.org)
ただし、拡散型LLMには弱点もあります。何度も全体をノイズ除去するため、単純には計算が重くなりやすい。さらに、生成の途中状態をどう外部ツールと接続するかも、自己回帰型とは違う設計が必要です。SARDIはこの弱点を逆手に取っています。反復生成の途中で生まれる未確定トークンを、無駄な副産物ではなく、検索計画の材料にする。言い換えると、拡散型LLMの「迷い」を観測して、外部知識への問い合わせに変換する手法です。
論文によると、SARDIは訓練不要、retriever-agnostic、つまり特定の検索器に依存しない設計で、推論能力を持つ離散拡散型言語モデルに適用可能とされています。5つのマルチホップQAベンチマークで、既存の訓練不要な拡散型・自己回帰型検索ベースラインを上回り、最大8倍のスループットも報告されています。(arxiv.org)
この数字は魅力的ですが、現時点では慎重に読むべきです。最大8倍という表現は、どのベースライン、どの推論設定、どの検索回数、どのモデルサイズで比較したかに強く依存します。また、マルチホップQAでの改善が、そのまま一般的な業務RAG、コード調査、法務・医療のような高精度文書検索に広がるとは限りません。特に「低信頼トークンを検索に使う」設計は、誤った固有名詞や中途半端な仮説を早期に拾ってしまうリスクもあります。
それでも、この研究の重要性は、拡散型LLMを単に「並列生成で速いかもしれないモデル」としてではなく、「途中状態を利用できる生成器」として扱っている点にあります。自己回帰型LLMでは、外部ツール呼び出しは多くの場合、明示的な思考文、関数呼び出し、エージェントループに頼ります。拡散型LLMでは、出力候補の分布そのものが、検索・検証・計画のインターフェースになりうる。
今後の見どころは三つです。第一に、SARDIがどの拡散型モデルでも安定して効くのか。第二に、低信頼トークン由来の検索ノイズをどう制御するのか。第三に、RAGだけでなく、コード実行、ツール選択、長文編集にも同じ「未確定状態の利用」が広がるのか。
LLMの次の競争軸は、単に答えを出す能力だけではありません。生成途中の不確実性を、どれだけ有用な行動に変換できるか。SARDIはその方向を示す、地味ですがかなり示唆的な一歩です。