VPO:「良い答えに収束する」だけでは、探索時代のLLMには足りない
2026年5月22日のarXiv新着で目を引いたのは、MIT、MIT-IBM Computing Research Lab、Sakana AIなどの著者による Vector Policy Optimization: Training for Diversity Improves Test-Time Search だ。テーマは一見すると強化学習の細部だが、実際には「LLMをどう訓練すべきか」という前提を少しずらす論文である。従来のRLHFやGRPO的なポストトレーニングは、基本的に一つのスカラー報酬を高くする方向へモデルを押す。しかし、いまのLLM利用は単発回答だけでなく、best-of-N、pass@k、自己整合性、進化的探索のように、複数候補を出して後段で選ぶ形へ広がっている。VPOはこの状況に対し、「訓練では一つの最適解に潰すのではなく、後段探索が拾える多様な有能解の集合を作るべきだ」と主張する。(arxiv.org)
仕組みはかなり素直だ。多くのタスクでは報酬は本来ベクトルで表せる。コード生成ならテストケースごとの正否、マルチホップQAなら各ホップの根拠選択と最終回答、ツール利用ならフォーマット、ツール名、引数キー、引数値といった要素に分解できる。従来はこれらを重み付き平均して一つの点数にし、その点数を最大化する。VPOはその代わりに、重みベクトルをランダムにサンプルし、モデルが一度のロールアウトで複数候補を出すように訓練する。各候補が報酬空間の異なるトレードオフに特化することで、集合全体としてパレートフロントを覆う、という設計だ。論文自身は、VPOをGRPOのadvantage推定器に対するほぼ差し替え可能な手法として位置づけている。(arxiv.org)
ここで重要なのは、「表面上違う文章を出せる」ことと「探索に役立つ多様性」は別物だという点だ。ランダムサンプリングで文体や順序が違う候補を増やしても、同じ失敗を少しずつ言い換えているだけなら、best-of-Nはすぐ頭打ちになる。VPOが狙うのは token diversity ではなく reward-space diversity、つまり報酬成分上で異なる強みを持つ候補群である。論文では、固定スカラー報酬で訓練したGRPOは候補プールが近傍に潰れ、追加サンプルの価値が早く飽和する一方、VPOは候補数が増えたときにbest@kの伸びが続く、と説明している。(arxiv.org)
実験はMaze、MuSiQue、EUREQA、ToolRLの4領域に加え、LiveCodeBenchのケーススタディで検証されている。たとえばMuSiQueでは、VPOのbest@30が0.832で、GRPOの0.728、Max-at-Kの0.802を上回る。MazeでもVPOはbest@30で0.593、GRPOは0.432、Max-at-Kは0.577だった。EUREQAでは差は小さいが、VPOがbest@30で0.279、Multi-RLVRが0.267、GRPOが0.236。ToolRLではMax-at-Kがbest@30で0.954、VPOが0.952とほぼ並ぶ。つまり「全表で圧倒」というより、探索予算がある状況でVPOが安定して競争力を持つ、という読み方が妥当だ。(arxiv.org)
面白いのはLiveCodeBenchでの反転だ。単発のpass@1ではGRPOの方が良い。しかし候補集合を評価するbest@kにするとVPOが上回り、OpenEvolveのような進化的探索ループに入れると、GRPOが早く頭打ちになる一方で、VPOは200反復の中で新しい解を見つけ続けた、と報告されている。これは「一発で正しい答えを出すモデル」と「探索器に良い素材を渡すモデル」が、必ずしも同じ訓練目標で得られないことを示している。(arxiv.org)
この論文の意味は、モデル評価の単位が変わりつつあることにある。チャットUIでは1問1答の品質が中心だった。しかし、コーディング、数学、ツール利用、研究支援では、LLMは最終回答者というより候補生成器になっていく。Google DeepMindのAlphaEvolveのような仕組みも、LLMが候補を出し、外部評価器や探索手続きが選別・改変する構造を取る。そうなると、訓練目標も「平均的に一番良い答え」ではなく「探索空間を豊かにする候補集合」へ寄っていく可能性がある。(deepmind.google)
ただし、VPOを万能視するのは早い。論文自身も、報酬成分が実質的に同じ方向を向いている場合、つまりベクトル報酬がほぼスカラーに潰れている場合には効果が縮むと述べている。UltraFeedbackとArmoRM-5を使った別実験では、名目上の複数成分がほぼ共線的で、VPOは絶対的なbest@kでスカラー手法を下回ったという。これは重要な留保だ。VPOが効くのは「良さ」に複数の独立した軸があり、それぞれに違う解法が存在する場合であって、単に報酬を細かく分ければよいわけではない。(arxiv.org)
もう一つの留保は、評価が研究チーム内のベンチマークと設定に依存している点だ。訓練はQwen系モデルを中心に、H100上でおよそ1000 GPU時間規模の報告実験として行われている。実サービスで重要になるのは、候補生成コスト、探索器の品質、報酬分解の設計、そして多様な候補を本当に安全に扱えるかという運用面である。特にエージェントでは、多様性は性能向上の源泉であると同時に、失敗パターンの多様化にもなりうる。(arxiv.org)
それでも、この論文は良い問いを置いている。LLMを「一つの答えを出す機械」と見るなら、報酬最大化は収束の問題になる。だがLLMを「探索プロセスの一部」と見るなら、過度な収束はむしろ損失になる。これからのポストトレーニングでは、正解率だけでなく、候補集合の広がり、相補性、探索器との相性が重要な指標になっていくかもしれない。
出典: arXiv新着一覧、論文ページ・PDF、Google DeepMind AlphaEvolve公式発表。(arxiv.org)