Qwen-AgentWorld公開——AIエージェントは「実行する前に、世界を予測する」段階へ
きょう取り上げるのは、Qwenチームが2026年6月23日にarXivへ投稿し、6月24日にGitHub上で公開を告知した研究、Qwen-AgentWorldです。ひとことで言うと、これは普通のチャット用LLMではなく、エージェントが行動したあとに環境がどう変わるかを予測するための「言語ワールドモデル」です。Qwen側は、35B総パラメータ・3B activeのQwen-AgentWorld-35B-A3Bと、評価用ベンチマークAgentWorldBenchをオープンソース公開したと説明しています。論文では、より大きな397B-A17Bモデルの結果も報告されています。(arxiv.org)
まず、ワールドモデルとは何かを噛み砕きます。たとえばAIエージェントがLinux端末でlsを打つ、ブラウザでボタンを押す、コードを編集する。通常なら、その行動を本物の環境で実行して、結果を観察します。ワールドモデルは、その「次に何が起きるか」をモデル自身に予測させる仕組みです。Qwen-AgentWorldは、MCP、検索、ターミナル、ソフトウェアエンジニアリング、Android、Web、OSという7領域を対象に、エージェント環境を言語でシミュレートすることを狙っています。(github.com)
何が新しいのか。ポイントは、エージェント訓練のボトルネックが「賢いモデルを用意すること」だけではなく、「大量に試行錯誤できる環境を用意すること」へ移っている点です。強化学習でエージェントを鍛えるには、何度も環境に触れ、失敗し、報酬を受け取り、行動を改善する必要があります。でも現実のWeb、GUI、端末、外部ツールは遅く、不安定で、コストもかかります。そこで、環境そのものをLLMで近似できれば、訓練用の「仮想世界」を大量に作れる、という発想です。
Qwenチームは、1000万件超の実環境インタラクション軌跡を使い、CPT、SFT、RLの3段階でQwen-AgentWorldを作ったと説明しています。CPTで状態遷移の知識を入れ、SFTで次状態予測を立ち上げ、RLでシミュレーションの忠実度を高める、という流れです。さらにAgentWorldBenchという評価ベンチマークも用意し、5つのフロンティアモデルが9種類の既存ベンチマークで実際に行動した記録から、世界モデルの予測能力を測る構成にしています。(arxiv.org)
面白いのは、Qwen-AgentWorldを単なる評価器や補助ツールではなく、エージェント訓練の土台として見ているところです。GitHubの説明では、Qwen-AgentWorldを使ったシミュレーションRLが、OpenClaw系の評価で実環境訓練のみを上回る結果を出したと報告されています。また、世界モデルとして事前に温めることで、Terminal-Bench、SWE-Bench、WideSearch、BFCLなど複数のエージェント系ベンチマークに改善が見られたとされています。(github.com)
ただし、ここは慎重に読む必要があります。第一に、AgentWorldBenchはQwenチーム自身が設計した評価であり、第三者による独立検証ではありません。第二に、シミュレーターの予測がどれだけ現実に忠実かは、エージェント訓練では非常に重要です。もしモデルが現実ではなく「それらしい幻覚」を学んでしまうと、エージェントは本物の環境では通用しない攻略法を覚える可能性があります。第三に、巨大なLLMで環境を一歩ずつ予測するコストが、本物のコンテナやブラウザを動かすより本当に安いのかは、用途ごとに検証が必要です。
それでも、この研究は重要です。生成AIの競争は、単に「答えを出すモデル」から、「行動し、観察し、失敗から学ぶモデル」へ進んでいます。そのとき必要になるのは、エージェントが安全かつ大量に練習できる世界です。Qwen-AgentWorldは、その世界を人間が手作業で作るのではなく、言語モデル自身に生成・予測させようとする試みです。
今日のまとめです。Qwen-AgentWorldは、AIエージェント研究における新しい焦点を示しています。これまでは、モデルに「どう答えさせるか」が中心でした。これからは、モデルに「どんな世界で練習させるか」が同じくらい重要になるかもしれません。もしこの方向が進むなら、エージェント開発の主戦場は、プロンプトやツール連携だけでなく、学習用の仮想環境、つまりAIのための訓練場づくりへ広がっていきます。
出典: arXiv、Qwen公式GitHub、Hugging Face Daily Papers。(arxiv.org)