小さなモデルを「再帰的に働くエージェント」へ訓練する:Reinforcing Recursive Language Models
2026年5月13日に公開された alphaXiv の記事「Reinforcing Recursive Language Models」は、長文処理やエージェント設計の話題としてかなり面白い位置にあります。新しい巨大モデルの発表ではありません。むしろ逆で、4B級の小さなモデルを、Recursive Language Model、つまり自分自身を子エージェントとして呼び出しながら問題を分解する推論形式に、強化学習で適...
小さなモデルを「再帰的に働くエージェント」へ訓練する:Reinforcing Recursive Language Models
2026年5月13日に公開された alphaXiv の記事「Reinforcing Recursive Language Models」は、長文処理やエージェント設計の話題としてかなり面白い位置にあります。新しい巨大モデルの発表ではありません。むしろ逆で、4B級の小さなモデルを、Recursive Language Model、つまり自分自身を子エージェントとして呼び出しながら問題を分解する推論形式に、強化学習で適応させる試みです。著者らは、親RLMと子RLMを別モデルにせず、単一の共有ポリシーで両方の役割を学習させる点を中心に据えています。コードと訓練設定も SkyRL リポジトリ上で公開されています。(alphaxiv.org)
背景にあるRLMの考え方は、長い入力をそのままコンテキスト窓へ押し込むのではなく、外部環境として保持し、モデルがプログラム的に検索・分解・抽出し、必要に応じて自分自身を再帰的に呼び出すというものです。元論文「Recursive Language Models」は、RLMを inference-time scaling の一形態として位置づけ、長文プロンプトを外部環境として扱うことで、通常のコンテキスト窓を大きく超える入力処理を狙っています。今回の投稿は、その「推論時の足場」を、単なるプロンプト技法ではなく、訓練対象にする方向へ進めたものと読めます。(arxiv.org)
実験タスクは、複数の科学論文から質問に答える根拠スニペットを返す evidence selection です。環境には、論文一覧を出す list_papers、キーワード検索を行う search、該当範囲を切り出す extract_section、個別論文の要約を取得する get_paper_abstract などの関数が用意されます。データは、alphaXiv上の論文と類似論文を組み合わせ、フロンティアモデルで質問と正解根拠を合成して作られ、全体で最大10本の論文グループに対する1000クエリが生成されています。著者らは、このタスクでは固定個数の上位チャンクを返すだけのRAGは相性が悪く、可変長・可変個数の根拠抽出が必要だと説明しています。(alphaxiv.org)
技術的な核は、再帰的な呼び出し木に対する強化学習の報酬割り当てです。複数論文の場合、ルートRLMはどの論文を子RLMへ割り当てるかを決め、子RLMが各論文から根拠を抽出します。ここで親用モデルと子用モデルを分けると、報酬設計も訓練パイプラインも複雑になります。そこで著者らは、ルートのロールアウトに対してGRPOで advantage を計算し、そこから生まれた子ロールアウトには親と同じ advantage を継承させます。同時に、子を大量に呼んだロールアウトだけが勾配を支配しないよう、子の損失寄与を子数で平均化します。(alphaxiv.org)
これは一見すると粗い信用割り当てです。どの子RLMが本当に役に立ったかを個別に採点しているわけではありません。ただし、系列全体に同じ報酬を割り当てる通常のRL訓練と同じ発想で、まずは「再帰的な作業分担を成功に結びつける」方向へポリシー全体を動かす設計になっています。重要なのは、RLMをプロンプトで誘導される外部スキャフォールドではなく、モデル自身が学ぶべき行動様式として扱っている点です。ここで学習されるのは、答えそのものだけではなく、「いつ検索するか」「どの論文を子に渡すか」「子の出力をどう統合するか」という作業分解の癖です。
結果は限定的ながら示唆的です。単一論文タスクでは、Qwen3.5-4B系モデルの評価スコアがSFT後の約0.6からRL後に約0.8へ上昇したと報告されています。複数論文RLMでは、SFT済みQwen3.5-4Bを単一8xH200ノードで訓練し、最大4つの子RLMを呼ぶ設定で、訓練データ上の平均ルーブリックスコアが0.3から0.6へ改善しました。評価では Claude Sonnet 4.6 を使った同一RLMスキャフォールドにはわずかに届かない一方、著者らのモデルは1クエリ約7秒、Sonnetベースでは60秒超と報告されています。(alphaxiv.org)
ただし、この結果を「小型モデルがフロンティアモデルに勝った」と読むのは早計です。タスクは科学論文の根拠抽出に限定され、データも合成です。報酬にはルーブリックベースのLLM judgeが使われており、評価器の癖をどの程度拾っているかは検証余地があります。また、RLMはREPL上でコードを書かせて外部コンテキストを操作する設計なので、実運用ではサンドボックス、ツール権限、タイムアウト、ファイルアクセス制御が不可欠です。SkyRL側の実装にも、親子ロールアウト、REPL、rlm_query / rlm_query_batched のような再帰呼び出し機構が入っており、この種の研究はモデル性能だけでなく実行環境の安全性も同時に問います。(github.com)
それでも、この発表が面白いのは、長文LLMの競争軸を少しずらしているからです。コンテキスト長を伸ばす、検索精度を上げる、ツールを増やす、という話ではなく、モデルに「分解して他の自分へ委任する」作法を訓練する。これは、単一の巨大な思考列を伸ばす方向とは異なる、並列的・階層的な推論スケーリングです。研究、監査、法務、コードベース理解のように、対象資料が多く、根拠を明示的に返す必要がある領域では、この方向性は実務的にも意味を持ちます。
今後の焦点は、より細かな信用割り当てです。親が選んだ論文の妥当性、子が抽出した根拠の正確性、統合時の過不足を別々に評価できれば、RLMの訓練はさらに安定するはずです。もう一つの焦点は、戦略プロンプトへの依存をどこまで減らせるかです。今回の投稿でも、長い戦略説明を短くすると訓練はやや不安定になったとされています。つまり、現時点のRLMはまだ「再帰的に考えるモデル」というより、「再帰的に考える環境でうまく振る舞うよう訓練されたモデル」です。この差は小さくありません。
出典:alphaXiv「Reinforcing Recursive Language Models」、arXiv「Recursive Language Models」、NovaSky-AI/SkyRL GitHub。(alphaxiv.org)