NVIDIAは2026年6月1日、フィジカルAI向けの基盤モデル「Cosmos 3」を発表しました。台湾で開催中のGTC Taipeiにて公開されたもので、ロボットや自動運転車、視覚AIエージェントの開発を対象としています。

そもそもフィジカルAIシステムは、現実空間(物理世界)で動作し、環境と相互作用するAIのことを指します。これによって空間の状況を理解したり、未来に何が起こるかを予測したりといった物理ベースのシミュレーションに利用できます。
Cosmos 3の特徴は、視覚推論・ワールド生成・行動予測を一つのモデルに統合した設計です。アーキテクチャにはMoT(※Mixture-of-Transformers:推論を担う自己回帰型タワーと、映像や行動を生成する拡散ベースのタワーを組み合わせた構造)を採用しています。
従来はワールド生成・物理理解・場面生成が別々のモデルで行われていましたが、Cosmos 3ではこれらを統合しています。テキスト・画像・動画・環境音・アクションのマルチモーダル入出力に対応し、NVIDIAはこれを「世界初の完全オープンなオムニモデル」と説明しています。
活用例として、NVIDIAの技術ブログでは自動運転向けの動画生成と、倉庫の安全監視用ビデオ生成が紹介されています。合成データの生成により、実際の収集が困難なシナリオの学習データを補えます。

図1. 自動運転分野向けにCosmos 3が生成した動画クリップ

図2.倉庫の安全データのためにCosmos 3を使用して生成されたビデオ
モデルは用途に応じて3種類が用意されています。Cosmos 3 Superは320億パラメータを持ち、高精度な物理シミュレーションを必要とするポストトレーニング向けです。Cosmos 3 Nanoは80億パラメータで、サブ秒単位での高速な推論に対応。Cosmos 3 Edgeはエッジ端末でのリアルタイム推論を想定したモデルで、近日公開予定です。SuperとNanoは本日より提供が開始されています。

デジタルヒューマンシーンデータセットの例
自動運転シナリオデータセットの例
複数の物理AIベンチマークでオープンモデル中首位の成績を記録しています。世界生成精度ではArtificial Analysis・Physics-IQ・PAI-Bench・R-Bench、行動ポリシーではRoboLab・RoboArena、視覚理解ではVANTAGE-Bench・TARの各評価でそれぞれ1位を獲得しました。

あわせてNVIDIAは、オープンな世界モデルの開発を推進する連合体「Cosmos Coalition」の発足も発表しました。Agile Robots、Black Forest Labs、Generalist、LTX、Runway、Skild AIの6社が創設メンバーとして参加しています。
Cosmos 3はHugging Faceからダウンロードでき、build.nvidia.comでの試用も行えます。
Cosmos 3 概要
発表日
2026年6月1日
モデル名
Cosmos 3(Super / Nano / Edge)
提供中のモデル
Cosmos 3 Super(32B)、Cosmos 3 Nano(8B)
近日公開
Cosmos 3 Edge(エッジ推論向け)
対応モダリティ
テキスト・画像・動画・環境音・アクション
試用URL
build.nvidia.com
ダウンロード
Hugging Face
Cosmos Coalition参加企業
Agile Robots、Black Forest Labs、Generalist、LTX、Runway、Skild AI
参考
NVIDIA ニュースルーム
NVIDIA 技術ブログ
NVIDIA 公式X
もぐら関連記事