正解がなくてもLLMは鍛えられるのか：RiVERが示す「採点できる世界」の可能性

きょう取り上げる論文

きょうは、LLMの強化学習に関する論文 “Reinforcement Learning without Ground-Truth Solutions can Improve LLMs” を取り上げます。著者らは、正解データがない課題でも、実行結果から得られるスコアをうまく整形すれば、LLMのコーディング能力を改善できると主張しています。arXiv上では2026年6月25日17:59 UTCに投稿されたプレプリントです。(arxiv.org)

何が問題だったのか

最近のLLM強化学習では、RLVR、つまり Reinforcement Learning with Verifiable Rewards が重要な役割を持っています。ざっくり言うと、「答えが合っているかを機械的に判定できる問題」でモデルを鍛える方法です。数学なら最終答えが一致するか、コードならテストが通るか、といった形ですね。

ただし、この方法には大きな制約があります。報酬を与えるには、基本的に「何が正解か」が必要です。ところが現実のタスクには、唯一の正解がないものがたくさんあります。スケジューリング、探索、最適化、シミュレーション、長期的なエージェント作業。こうした問題では、「正解」は分からなくても、「この解は前より良い」「このスコアは高い」という評価だけはできることがあります。

今回のRiVERは、まさにその隙間を狙った研究です。

RiVERの発想

RiVERは、Ranking-induced Verifiable frameworkの略です。ポイントは、LLMに「正解そのもの」を教えるのではなく、候補解同士の順位を使って学習させるところにあります。

論文では、正解解答がないスコアベースの最適化タスクに対して、決定的な実行フィードバックを連続値の教師信号として使う、と説明されています。つまり、「このプログラムが模範解答と一致したか」ではなく、「このプログラムを実行したら、どれくらい良いスコアが出たか」を報酬にするわけです。(arxiv.org)

ここで直感的に思うのは、「それならスコアをそのまま報酬にすればよいのでは？」ということです。けれど、論文はそこに二つの落とし穴があると整理しています。

ひとつ目は scale dominance。問題ごとにスコアの桁や分布が違うため、ある問題の大きな数値が、学習全体を不当に支配してしまう現象です。
ふたつ目は frequency dominance。何度もサンプルされるそこそこの解が、たまにしか出ない優れた解よりも強い学習信号になってしまう現象です。(arxiv.org)

RiVERはこの二つに対して、問題内で候補を比較し、上位の解を強調しつつ、それ以外の有効な解にも上限付きのフィードバックを残す報酬整形を行います。要するに、「生の点数」ではなく、「同じ問題の中でどれだけ良い位置にいるか」を学習しやすい形に変換しているのです。

実験結果の読み方

実験では、AtCoder Heuristic Contestの12タスクで学習し、Algorithm Engineering Benchmark、LiveCodeBench、USACOで評価しています。結果として、RiVERはQwen3-8BとGLM-Z1-9B-0414のALE rating rankをそれぞれ8.9%と9.4%改善したと報告されています。(arxiv.org)

さらに面白いのは、学習に使ったのが正解なしのスコアベースタスクだけだったにもかかわらず、LiveCodeBenchやUSACOのような「正解あり」のベンチマークでも平均で2.4%と3.5%の絶対改善が出た、という点です。一方で、生の実行スコアをそのまま使うベースラインはALEの評価は改善しても、正解型ベンチマークへの転移には失敗したとされています。(arxiv.org)

ここはかなり大事です。論文の主張は、「スコアがあれば何でもうまくいく」ではありません。むしろ逆で、スコアをどう報酬に変換するかが決定的に重要だ、という話です。

なぜ重要なのか

この研究が示しているのは、LLMの学習環境を広げる可能性です。

これまでのRLVRは、数学や競技プログラミングのように、比較的きれいに採点できる領域で強みを持っていました。しかし現実のソフトウェア開発や業務エージェントでは、「完全な正解ファイル」は存在しないことが多い。代わりにあるのは、実行時間、メモリ使用量、通過したテスト数、探索スコア、ユーザー操作の成功率、タスク完了までの手数といった、連続的で相対的な指標です。

RiVERは、そうした「正解はないが評価はできる」世界を、LLMの訓練データに変えられるかもしれない、という方向を示しています。

ただし、まだ万能ではない

もちろん、慎重に見るべき点もあります。

まず、この論文はプレプリントであり、結果は独立再現を待つ必要があります。また、対象は主にスコアベースのアルゴリズム・コーディング課題です。自然言語での企画、法務判断、医療判断、長期的な対話エージェントの安全性に、そのまま広げられるとは言えません。

また、「スコアを最大化する」学習は、常に報酬ハッキングのリスクを含みます。今回のRiVERは生スコアの問題をかなり意識して設計されていますが、評価関数が不完全なら、モデルはやはりその抜け穴を学ぶ可能性があります。

今後の見どころ

今後の焦点は、RiVERのような報酬整形が、より現実に近いエージェント環境でも効くかどうかです。

たとえば、ブラウザ操作、データ分析、リポジトリ修正、シミュレーション実験のように、完全な答えはないけれど途中経過や成果を採点できる環境があります。そこで「順位ベースの報酬」がうまく働けば、LLMは人間が正解を大量に用意しなくても、環境との相互作用から少しずつ能力を伸ばせるかもしれません。

きょうのポイントを一言でまとめるなら、こうです。

LLMを鍛えるには、必ずしも模範解答が必要とは限らない。
ただし、世界から返ってくるスコアを、そのまま信じてはいけない。
良い学習信号に変換する設計こそが、次の競争軸になりつつあります。

# 正解がなくてもLLMは鍛えられるのか：RiVERが示す「採点できる世界」の可能性 ## きょう取り上げる論文 きょうは、LLMの強化学習に関する論文 ...