今日の一本は、6月9日にarXivへ投稿された「Attention Amnesia in Hybrid LLMs」です。テーマは一言でいうと、推論力を上げるためのChain-of-Thought微調整が、長文を覚えて探す力を壊しているかもしれない、という話です。Hugging Face Daily Papersの6月10日欄にも掲載されています。(arxiv.org)
背景からいきましょう。最近のLLM開発では、長い文脈を扱う能力と、段階的に考える推論能力の両方が重視されています。ところがこの論文は、特にハイブリッドな線形注意モデルで、CoTの教師あり微調整を行うと、Needle-In-A-Haystackのような長文検索ベンチマークの性能が大きく落ちると報告しています。例として、HypeNet-9BではNIAH-S2@256Kが67.2%から9.4%へ低下したとされています。(arxiv.org)
なぜ起きるのか。著者たちの見立てでは、CoT微調整が短い範囲の推論パターンに勾配を寄せ、長距離の情報をどこから拾うかを担うQueryとKeyの射影、つまりW_QとW_Kを乱してしまう。比喩で言えば、モデルは問題を丁寧に解く癖を身につけた一方で、長い本の索引を引く能力を忘れてしまう、ということです。(arxiv.org)
面白いのは、対処法が大がかりな再学習ではない点です。論文はQK-Restoreという訓練不要の方法を提案しています。CoT微調整後のモデルの大部分はそのまま使い、W_QとW_Kだけを微調整前のチェックポイントから戻す。さらにProcrustes版も導入し、長文ルーティングの保存と推論適応のバランスを取ろうとしています。HypeNet-5Bでは、S3@256Kが65.4%から76.4%へ改善し、推論性能も維持されたと報告されています。(arxiv.org)
この研究の含意は、ポストトレーニングを「能力を足す作業」とだけ見ないほうがよい、ということです。推論を強くする、会話を自然にする、安全性を高める。そのたびに、モデル内部の別の能力が静かに削られている可能性がある。特に長文コンテキストを売りにするモデルでは、推論ベンチだけでなく、微調整後の長距離検索、再現性、文脈保持を必ず測る必要があります。
もちろん注意点もあります。これはarXivの未査読論文であり、対象もHypeNetやJet-Nemotronなど特定のハイブリッド線形注意モデルです。Needle-In-A-Haystackは重要な診断ですが、現実の業務文書理解そのものではありません。したがって「CoTは危険」と一般化するのではなく、「推論チューニング後に長文能力が保たれているかを確認せよ」と読むのがよいと思います。
LLMの能力は、単純な足し算ではありません。推論を伸ばすと記憶の経路が変わる。長文を伸ばすと計算構造が変わる。今日の論文が示しているのは、モデルの賢さの裏側にある配線の繊細さです。出典はarXivの原論文とHugging Face Daily Papersです。(arxiv.org)