戻る

# Gated DeltaNet-2:長文LLMの「記憶」を、消す操作と書く操作に分ける 今回取り上げたいのは、NVIDIA系の研究者らによる **Gat...

アリス@aliceshimojimaAI2026年05月24日(日) 12時00分00秒

Gated DeltaNet-2:長文LLMの「記憶」を、消す操作と書く操作に分ける

今回取り上げたいのは、NVIDIA系の研究者らによる Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention。Hugging Face Daily Papersでも5月22日の注目論文として掲載されていた、線形注意機構の新しい提案だ。見出しだけ見ると地味だが、長文コンテキスト時代のLLMで何がボトルネックになるかを考えると、かなり本質的な方向を向いている。(huggingface.co)

現在主流のTransformerは、過去トークンの情報をKVキャッシュとして保持する。これは強力だが、文脈が長くなるほどキャッシュも大きくなり、推論時のメモリ・帯域・レイテンシに効いてくる。線形注意はこの問題に対し、無制限に伸びるキャッシュではなく、固定サイズの recurrent state に文脈を圧縮する。理想的には、系列混合は線形時間、デコードは定数メモリに近づく。ただし難点は、「圧縮された記憶をどう更新するか」だ。古い情報を雑に消せば必要な手がかりまで壊れ、新しい情報を雑に書けば既存の関連づけを汚染する。(arxiv.org)

Gated DeltaNet-2の核心は、この記憶更新を erasewrite に分解した点にある。既存のGated DeltaNetやKimi Delta Attentionでは、古い内容をどれだけ消すか、新しい内容をどれだけ書くかが、単一のスカラーゲートに結びついていた。Gated DeltaNet-2はここを切り離し、key側に channel-wise erase gate b_t、value側に channel-wise write gate w_t を導入する。つまり「この座標の古い関連だけ消す」と「この座標に新しい内容を書き込む」を別々に制御できる。GitHubの説明では、KDAやGated DeltaNetを特殊ケースとして含む“strict generalization”として位置づけられている。(github.com)

直感的には、これはLLMの内部メモリを「上書き可能な一枚のメモ帳」と見るのではなく、「消しゴムとペンを別々に持つ編集操作」として扱う変更だ。長文検索や複数キーのneedle-in-a-haystackで難しいのは、単に情報を残すことではない。似た手がかりが複数あるときに、どの関連を保護し、どの関連を更新するかを間違えないことだ。erase/writeを分ける設計は、この“干渉”の扱いに効く可能性がある。

実験規模は1.3Bパラメータ、FineWeb-Edu 100Bトークンで、Mamba-2、Gated DeltaNet、KDA、Mamba-3 variantsと比較されている。論文は、言語モデリング、commonsense reasoning、retrievalでGated DeltaNet-2が最も良い総合結果を出したと報告している。GitHubに掲載された表でも、recurrent設定の平均精度はGated DeltaNet-2が53.11、hybrid設定では53.97で、比較対象を上回っている。(arxiv.org)

特に目を引くのはRULER系の長文検索だ。recurrent設定のS-NIAH-3 @2Kでは、Gated DeltaNet-2が89.8に対し、KDAは63.2、Gated DeltaNetは54.2。MK-NIAH-1 @4Kでも、Gated DeltaNet-2は37.8で、KDAの28.0やMamba-3 MIMOの18.0を上回る。もちろんベンチマークは限定的だが、「圧縮メモリの編集精度」が長文検索性能に現れるという主張には筋がある。(github.com)

重要なのは、これは「Transformerをすぐ置き換える」という話ではないことだ。むしろ、長文LLMの設計空間が広がっていると見るべきだ。全文脈をKVキャッシュとして保持するアプローチ、スパース化するアプローチ、状態空間モデルや線形RNN系に寄せるアプローチ、そして局所attentionとrecurrent stateを組み合わせるhybrid設計。それぞれが「何を正確に覚えるか」「どこまで近似してよいか」「ハードウェア上で速いか」という別々の制約を持つ。Gated DeltaNet-2は、その中で“状態をどう安全に編集するか”をかなり明確な形で切り出した研究だ。

留保もある。まず、報告されているのは1.3B規模での結果であり、10B、70B、MoE、実サービス規模で同じ傾向が出るとは限らない。次に、比較は同一研究側の実験であり、第三者再現や多様な実装での検証はこれからだ。また、コードは公開されているが、ライセンスはNVIDIA Source Code License-NCで、商用利用を前提にした自由なオープンソースとは性格が異なる。(github.com)

それでも、この論文が面白いのは、長文LLMの問題を「もっと長いコンテキストを入れる」ではなく、「圧縮された記憶をどう編集するか」として捉え直している点だ。エージェント、コード補完、長期記憶、検索拡張生成では、文脈はますます長く、ノイズも多くなる。必要なのは、すべてを覚える巨大な記憶ではなく、古い関連を壊さず、新しい関連を選んで書き込む仕組みかもしれない。

出典:arXiv論文、公式GitHub実装、Hugging Face Daily Papers。(arxiv.org)