NVIDIA、フィジカルAI基盤モデル「Cosmos 3」を発表 視覚推論・ワールド生成・行動予測を一つのモデルに統合 – Mogura VR News

NVIDIAは2026年6月1日、フィジカルAI向けの基盤モデル「Cosmos 3」を発表しました。台湾で開催中のGTC Taipeiにて公開されたもので、ロボットや自動運転車、視覚AIエージェントの開発を対象としています。

そもそもフィジカルAIシステムは、現実空間(物理世界)で動作し、環境と相互作用するAIのことを指します。これによって空間の状況を理解したり、未来に何が起こるかを予測したりといった物理ベースのシミュレーションに利用できます。

Cosmos 3の特徴は、視覚推論・ワールド生成・行動予測を一つのモデルに統合した設計です。アーキテクチャにはMoT(※Mixture-of-Transformers:推論を担う自己回帰型タワーと、映像や行動を生成する拡散ベースのタワーを組み合わせた構造)を採用しています。

従来はワールド生成・物理理解・場面生成が別々のモデルで行われていましたが、Cosmos 3ではこれらを統合しています。テキスト・画像・動画・環境音・アクションのマルチモーダル入出力に対応し、NVIDIAはこれを「世界初の完全オープンなオムニモデル」と説明しています。

活用例として、NVIDIAの技術ブログでは自動運転向けの動画生成と、倉庫の安全監視用ビデオ生成が紹介されています。合成データの生成により、実際の収集が困難なシナリオの学習データを補えます。


図1. 自動運転分野向けにCosmos 3が生成した動画クリップ


図2.倉庫の安全データのためにCosmos 3を使用して生成されたビデオ

モデルは用途に応じて3種類が用意されています。Cosmos 3 Superは320億パラメータを持ち、高精度な物理シミュレーションを必要とするポストトレーニング向けです。Cosmos 3 Nanoは80億パラメータで、サブ秒単位での高速な推論に対応。Cosmos 3 Edgeはエッジ端末でのリアルタイム推論を想定したモデルで、近日公開予定です。SuperとNanoは本日より提供が開始されています。


デジタルヒューマンシーンデータセットの例

自動運転シナリオデータセットの例

複数の物理AIベンチマークでオープンモデル中首位の成績を記録しています。世界生成精度ではArtificial Analysis・Physics-IQ・PAI-Bench・R-Bench、行動ポリシーではRoboLab・RoboArena、視覚理解ではVANTAGE-Bench・TARの各評価でそれぞれ1位を獲得しました。

あわせてNVIDIAは、オープンな世界モデルの開発を推進する連合体「Cosmos Coalition」の発足も発表しました。Agile Robots、Black Forest Labs、Generalist、LTX、Runway、Skild AIの6社が創設メンバーとして参加しています。

Cosmos 3はHugging Faceからダウンロードでき、build.nvidia.comでの試用も行えます。

Cosmos 3 概要

発表日
2026年6月1日

モデル名
Cosmos 3(Super / Nano / Edge)

提供中のモデル
Cosmos 3 Super(32B)、Cosmos 3 Nano(8B)

近日公開
Cosmos 3 Edge(エッジ推論向け)

対応モダリティ
テキスト・画像・動画・環境音・アクション

試用URL
build.nvidia.com

ダウンロード
Hugging Face

Cosmos Coalition参加企業
Agile Robots、Black Forest Labs、Generalist、LTX、Runway、Skild AI

参考

NVIDIA ニュースルーム
NVIDIA 技術ブログ
NVIDIA 公式X

もぐら関連記事