NVIDIA Cosmos 3公開:生成AIは「画面の中」から「物理世界の予測」へ広がる
2026年6月1日、NVIDIAはGTC Taipeiで、物理AI向けのオープンな世界基盤モデル「Cosmos 3」を発表した。位置づけとしては、チャットLLMや画像生成モデルというより、ロボット、自動運転、スマート空間のために、現実世界の状態を理解し、未来を予測し、行動系列まで生成するための基盤モデルだ。NVIDIAは、Cosmos 3を「vision reasoning」「world generation」「action prediction」を単一システムに統合したモデルと説明している。(investor.nvidia.com)
今回の新しさは、単に動画生成が高品質になったという話ではない。従来のCosmos系では、世界生成、物理理解、制御付き生成、ポリシー生成が別々のモデルやワークフローに分かれていた。Cosmos 3では、Mixture-of-Transformers構成により、推論を担うautoregressiveな「Reasoner tower」と、画像・動画・音声・行動を生成するdiffusion系の「Generator tower」を組み合わせている。つまり、まず状況を読んでから生成する、という二段構えを一つのモデル内に収めた設計だ。(developer.nvidia.com)
公開されたモデルは、効率重視のCosmos 3 Nanoと、高品質・大規模生成向けのCosmos 3 Superが中心になる。Hugging Face上のモデルカードでは、Nanoは16B、Superは64Bパラメータとされ、テキスト、画像、動画、音声、行動軌跡を入力・出力の対象に含む。ライセンスはOpenMDW 1.1で、NVIDIAはモデル、コード、ポストトレーニング用スクリプト、物理AI向けデータセット、NIMマイクロサービスを公開対象としている。(huggingface.co)
重要なのは、「生成」の対象がコンテンツから訓練環境へ移っている点だ。ロボットや自動運転では、現実世界で失敗例を大量に集めることが難しい。倉庫で危険事象が起きる映像、交差点でのまれな交通状況、ロボットの失敗動作などは、必要だが実世界で収集しづらい。Cosmos 3は、そうした物理的にもっともらしい未来や行動条件付きの動画を作り、モデル訓練や評価の材料にすることを狙っている。NVIDIA自身も、ロボティクス、自動運転、倉庫安全、スマート空間を主要用途として挙げている。(developer.nvidia.com)
ただし、「オープン」と「完全に検証可能」は同じではない。モデルカードではトレーニングデータ全体として1.3B data points、393 dataset entriesが示されている一方、公開データだけでなくNVIDIA所有データや商用利用可能な外部データ、合成データ、非公開データも含まれる。OpenMDWは利用・改変・再配布を広く認めるライセンスだが、どの構成要素が実際に公開されているかは別問題だ。この点は、今後の再現性評価で重要になる。(huggingface.co)
また、ベンチマーク上の「物理精度」は、実ロボットや実道路での安全性を直接意味しない。NVIDIAは複数の物理AIベンチマークでオープンモデル中トップ級と主張しているが、物理世界での導入では、シミュレーションから実機への転移、センサー誤差、予期しない環境変化、制御失敗時の安全停止まで含めて評価する必要がある。生成動画が自然に見えることと、行動方策として安全に使えることの間には大きな距離がある。(investor.nvidia.com)
それでも、Cosmos 3は生成AIの競争軸が広がっていることをよく示している。これまでの中心は「文章を書く」「画像を作る」「コードを書く」だった。次の焦点は、モデルが世界をどう予測し、その予測を訓練・評価・行動にどう接続するかになる。LLMが言語の汎用インターフェースになったように、世界モデルはロボットや自動運転のための汎用シミュレーション層になりうる。
今後見るべき点は三つある。第一に、第三者評価でNVIDIAのベンチマーク主張がどこまで再現されるか。第二に、Cosmos 3で生成したデータが、実際のロボット方策や自動運転認識モデルをどれだけ改善するか。第三に、オープンモデルとして、研究者や企業がNVIDIA外の環境でも実用的に改変・運用できるかだ。Cosmos 3の本当の評価は、発表時のデモではなく、物理AIの開発ループをどれだけ短く、検証可能に、そして安全にできるかで決まる。