長く考えるAIに必要なのは、「いつ忘れるか」を決める力かもしれない

きょう取り上げる論文

きょうは、2026年6月22日にarXivへ投稿された論文「Self-Compacting Language Model Agents」を取り上げます。著者はジョンズ・ホプキンス大学とAppleの研究者らで、テーマはLLMエージェントの「コンテキスト圧縮」です。つまり、AIが長い作業の途中で、これまでの会話、思考、ツール実行結果をどう要約し、何を残し、何を捨てるか、という問題です。(arxiv.org)

なぜ重要なのか

最近のエージェントは、ただ一回答えるだけではありません。検索をし、コードを読み、ツールを呼び、途中の仮説を作り、また調べ直す。こうした長い軌跡は便利な一方で、古い失敗、不要になった検索結果、誤った途中推論もどんどん溜まります。論文はこの劣化を「context rot」、つまり文脈の腐敗として扱っています。長く考えれば賢くなる、というだけではなく、長く考えるほど過去のノイズに引っ張られる危険も増えるわけです。(arxiv.org)

現在の多くの仕組みでは、コンテキストが一定量に近づいたら自動で要約する、あるいは古い部分を捨てる、という方法が使われています。Claudeのリリースノートでも、会話がコンテキスト上限に近づくと以前のメッセージを要約して長い会話を続けやすくする仕組みが説明されています。またCursorも、長いエージェント作業ではコンパクションが必要になる一方、重要な情報を忘れるリスクがあると述べています。(docs.anthropic.com)

SelfCompactの新しさ

この論文のポイントは、「どう要約するか」だけでなく、「いつ要約するか」をモデル自身に判断させるところです。提案手法のSelfCompactは、要約ツールと軽量なルーブリックを組み合わせます。ルーブリックは、たとえば「サブタスクが解決した」「結論に収束している」なら圧縮してよい、一方で「まだ導出の途中」「詰まっていて情報を捨てると危ない」なら圧縮しない、という判断基準です。しかも追加学習や外部の判定モデルは使わず、同じLLMが判定と要約を担います。(arxiv.org)

ここが面白いところです。固定間隔の要約は、ちょうど大事な推論の途中で発火してしまうことがあります。論文中の例では、検索で確認した重要な事実が、タイミングの悪い要約によって落ち、最終回答が崩れるケースが示されています。SelfCompactは、解き終えた小さな単位ごとに「ここで一度まとめる」と判断させることで、作業記憶を掃除しながらも、必要な成果物は残そうとします。(arxiv.org)

実験結果

著者らは、競技数学とエージェント検索の6つのベンチマーク、7つのモデルで評価しています。数学ではQwen系モデルを使い、IMO-AnswerBenchやHMMT Nov 2025、HMMT Feb 2026で比較しています。SelfCompactは12条件中11条件で、圧縮なしや固定間隔要約を上回りました。特にQwen3.5-9Bでは、圧縮なしに対してIMO-AnswerBenchで16.4ポイント、HMMT Novで10.0ポイント、HMMT Febで18.1ポイント改善したと報告されています。(arxiv.org)

検索エージェントでも効果が出ています。GLM-4.7-Flash、MiniMax-M2.5、MiMo-V2-Flashを使い、BrowseComp、BrowseComp-Plus、DeepSearchQAで評価したところ、BrowseComp-Plusでは圧縮なしに対してそれぞれ+8.5、+9.2、+5.3ポイント改善しました。さらに、BrowseComp-Plusでの1問あたりコストは、モデルによって33%から67%低下したとされています。これは、要約のための判定呼び出しが増えても、その後の長い文脈を短くできるため、全体として安くなる、という説明です。(arxiv.org)

もう一つ重要なのは、ルーブリックを外すと性能が落ちる点です。GLM-4.7-Flashの検索タスクでは、SelfCompact本体の平均46.4%に対し、ルーブリックなしでは41.0%に下がりました。数学でも、Qwen3-4B-Instruct-2507のIMO-AnswerBenchで45.5%から40.9%に落ちています。つまり、単に「モデルに好きな時に要約して」と渡すだけでは不十分で、いつ圧縮してよいかを明文化する足場が効いている、ということです。(arxiv.org)

どう見るべきか

この研究は、モデルの重みそのものを賢くする話ではありません。むしろ、モデルの外側にある「足場」、つまりエージェントの実行環境やプロンプト設計で、メタ認知的な能力を補えるかを示しています。大きなコンテキストウィンドウを持つモデルが増えても、全部を詰め込めばよいわけではありません。むしろ、長い作業では「覚える能力」と同じくらい、「安全に忘れる能力」が重要になります。

ただし、これはまだプレプリントであり、結果は著者らの実験設定に基づくものです。評価対象は主にオープンウェイトモデルで、フロンティアモデルでは同じ効果になるとは限りません。また、数学と検索では有効でも、実際の企業内エージェント、コーディング、GUI操作、法務や医療のような高リスク領域では、要約が落とす情報の監査がさらに重要になります。論文自身も、フロンティアモデルではルーブリックなしでも文脈劣化を検知できる可能性があると留保しています。(arxiv.org)

今後の見どころ

今後のLLMエージェント競争は、単に「どのモデルが一番賢いか」だけでは測れません。どのタイミングで検索するか、どの情報をコンテキストに入れるか、いつ要約するか、何をログとして残すか。こうした文脈管理の設計が、実用上の性能、コスト、信頼性を大きく左右します。

SelfCompactが示しているのは、エージェントにとっての記憶は倉庫ではなく、作業机に近いということです。机の上に資料を積み上げ続ければ、いつか大事なメモが埋もれます。必要なのは、全部を覚えることではなく、作業の区切りごとに、次に使える形で整理し直すこと。長く働くAIほど、「忘れ方」の設計が問われる時代に入っているのだと思います。

出典

Self-Compacting Language Model Agents, arXiv, 2026年6月22日投稿。(arxiv.org)
Claude Release notes: Context window compaction。(docs.anthropic.com)
Cursor Research: Training Composer for longer horizons。(cursor.com)

# 長く考えるAIに必要なのは、「いつ忘れるか」を決める力かもしれない ## きょう取り上げる論文 きょうは、2026年6月22日にarXivへ投稿された...