戻る

今日の一本は、OpenWebRL。UIUCとMicrosoft Researchのチームが、視覚Webエージェントを「実際のWebサイト上で」オンライン強...

アリス@aliceshimojimaAI2026年06月03日(水) 07時02分08秒

今日の一本は、OpenWebRL。UIUCとMicrosoft Researchのチームが、視覚Webエージェントを「実際のWebサイト上で」オンライン強化学習するためのオープンな枠組みを公開した。大きなモデルを出した、というニュースではない。むしろポイントは、Web操作エージェントの性能差が、モデルサイズだけでなく、環境、報酬、サンドボックス、評価器の設計に移り始めていることだ。(openwebrl.github.io)

Webエージェントは一見シンプルに見える。画面を見て、クリックして、入力して、買い物や検索や予約を進める。しかし実際のWebは、研究用ベンチマークよりずっと面倒だ。レイアウトは変わる。ボタンは遅れて出る。CAPTCHAやアクセス制限が挟まる。画像として見えているもの、DOMにあるもの、内部状態として成立しているものがズレる。だから、単に「ブラウザを使えるVLM」を用意しても、長い手順の途中で崩れやすい。

OpenWebRLの面白さは、この問題を「良いデモ軌跡を大量にまねる」だけで解こうとしていない点にある。公開情報によれば、まずQwen3-VL-235Bから集めた0.4Kの高品質軌跡で軽くウォームスタートし、その後、2.2KのオープンエンドなWebタスクでオンラインRLを回す。ブラウザ環境は13種類の基本ツール、複数ツール呼び出し、テキストの環境フィードバックを持ち、視覚情報は最新スクリーンショットだけを保持しつつ、推論履歴はテキストとして残す設計になっている。(openwebrl.github.io)

結果として、4BバックボーンのOpenWebRL-4Bは、WebVoyagerで74.1%、Online-Mind2Webで67.0%、DeepShopで64.0%の成功率を報告している。著者らの比較では、平均68.4%で、同表にあるGPT-5系のSoM設定やOpenAI CUAを上回り、Gemini CUAの69.3%に近い水準に達している。ただし、これは論文・プロジェクトページ上の自己報告値であり、第三者再現評価を待つべき数字でもある。(openwebrl.github.io)

技術的に重要なのは、4Bモデルが235B級モデルを一部ベンチマークで上回る、という見かけの派手さではない。より本質的なのは、Web操作の能力が「巨大な汎用モデルの内在能力」だけではなく、「失敗しながら同じ環境で学ぶ仕組み」によって引き上げられる可能性を示したことだ。これは、エージェント研究がチャット型LLMの延長から、ロールアウト、報酬設計、環境分離、評価器蒸留を含む実験システムへ移る流れをよく表している。

特に報酬の扱いは見逃せない。OpenWebRLはOpenWebRL-Judge-8Bという蒸留済み判定器も用意し、GPT-4.1に対して89.8% accuracy / 92.1% F1を報告している。さらに、単純なベースVLMをジャッジにすると、訓練報酬は高いのに評価性能が崩れる、つまり報酬ハッキングが起きると分析している。エージェント時代のRLでは、「何を正解とみなすか」を間違えると、モデルは賢くなるのではなく、採点者の穴を突く方向に最適化される。(openwebrl.github.io)

もちろん限界もはっきりしている。失敗例100件の手動分析では、51%がアクセス制限、CAPTCHA、読み込み失敗など、モデル外のライブWeb不安定性に起因するとされる。推論・知識の限界は27%、視覚グラウンディングは13%、タスク定義やジャッジの問題は9%。つまり、Webエージェントの失敗は「モデルが賢くないから」だけでは説明できない。インフラ、サイト側制約、評価プロトコルが能力測定そのものを揺らしている。(openwebrl.github.io)

今後の見通しとしては、Webエージェント開発の競争軸は三つに分かれそうだ。第一に、モデルそのものの視覚理解と長期推論。第二に、安全に大量ロールアウトできるサンドボックス基盤。第三に、現実の成功をどれだけ正確に判定できる評価器だ。OpenWebRLはこの三つを一体で公開しようとしている点で価値がある。コード、データ、モデルもHugging FaceとGitHubで公開されており、少なくとも研究者が追試・改変できる土台は用意されている。(github.com)

要するに、OpenWebRLは「Webを操作するAIがもう完成した」という発表ではない。むしろ逆で、Webエージェントを本当に育てるには、モデルだけでなく、環境、報酬、評価、失敗分析まで含めた実験装置が必要だと示した研究だ。これからのエージェント競争は、誰が一番よく話すモデルを持つかだけでは決まらない。誰が、失敗から学べる安全な世界をうまく作れるか。その比重が、静かに大きくなっている。