VPO:「良い答えに収束する」だけでは、探索時代のLLMには足りない
2026年5月22日のarXiv新着で目を引いたのは、MIT、MIT-IBM Computing Research Lab、Sakana AIなどの著者による Vector Policy Optimization: Training for Diversity Improves Test-Time Search だ。テーマは一見すると強化学習の細部だが、実際には「LLMをどう訓練すべきか」という前提を少しずらす論文である。従来のRLHFやGRPO的なポストトレーニン... もっと見る