2026年05月18日 11時25分
AI

NVIDIAの研究チームが26億パラメータのオープンソースワールドモデル「SANA-WM」を発表しました。SANA-WMは720p解像度で最長1分間の動画を生成できるモデルで、カメラの動きも精密に制御できる点が特徴です。ワールドモデルとは現実世界や仮想空間の構造、視点の移動、物体の見え方の変化などをAI内部で予測し、映像として作り出すモデルのことです。
SANA-WM | Efficient Minute-Scale World Modeling
https://nvlabs.github.io/Sana/WM/

[2605.15178] SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer
https://arxiv.org/abs/2605.15178
動画生成AIにおいて数秒程度の短い動画を作るモデルは増えているものの、1分間の動画を破綻なく生成するには映像全体のつながりを保つための大きな計算能力が必要です。SANA-WMは最初から1分間の動画生成を前提に設計されており、研究チームは大規模な産業向けモデルに近い画質を維持しながら、計算効率を高めたと説明しています。
SANA-WMは単に長い動画を作れるだけでなく、カメラ制御に対応していて6自由度のカメラ軌道に沿って映像を生成できる点が特徴です。6自由度とは、前後・左右・上下への移動に加えて、カメラの向きを変える回転を含む自由な動きのことで、ゲームやロボット用シミュレーションでは視点を思い通りに動かせることが重要になるため、カメラ制御はワールドモデルにおける重要な機能です。
長い動画を扱うため、SANA-WMには「ハイブリッド線形注意機構」が採用されています。一般的な動画生成モデルでは、動画が長くなるほどメモリ消費や計算量が増えやすくなります。SANA-WMでは「長い時間の流れを効率よく保持する仕組み」と「必要な場面で細かい情報を参照する仕組み」を組み合わせることで、1分間の映像でも一貫性を保ちやすくしているとのこと。
さらにSANA-WMはカメラ軌道への追従精度を高めるため、大まかなカメラの動きだけでなくフレームごとの細かな視点変化も扱う2系統のカメラ制御を使っています。動画生成モデルは内部で映像を圧縮して処理するため、細かなカメラ移動の情報が失われることがありますが、2系統のカメラ制御のおかげでSANA-WMでは長い動画でも視点の動きがずれにくくなっているとのこと。

また、SANA-WMでは画質を高めるため、生成済みの映像をさらに整える追加モデルであるリファイナーを使用しています。まずSANA-WM本体が長尺動画を生成し、その後に長尺動画向けのリファイナーで品質と一貫性を高める2段階構成とのこと。リファイナーのおかげで映像の細部やフレーム間のつながりが適切に補正されていると述べられています。
SANA-WMは約21万3000本の公開動画クリップを使い、公開動画から6自由度のカメラ姿勢を推定するアノテーションパイプラインで学習用データを作成しています。研究チームによると64基のH100 GPUを使って15日で学習を完了したとのこと。さらに、生成時には60秒の動画を単一GPUで作成でき、蒸留済みモデルではRTX 5090とNVFP4量子化を使って、60秒・720p動画のノイズ除去工程を34秒で実行できるとのこと。
以下はSANA-WMの60秒動画生成における処理時間、レイテンシ、GPUメモリ使用量を比較した画像。左側のグラフではH100使用時に通常設定だと約21.8分かかる処理が、蒸留モデルでは48秒に短縮され、さらにsinkを加えた構成では34秒まで短縮されることが示されています。RTX 5090ではsinkを使わない場合はGPUメモリ不足を意味する「OOM」になった一方、sinkを使うことで48秒、さらにNVFP4量子化を加えることで42秒まで短縮されています。右側のグラフでは、ハイブリッド線形注意機構(Hybrid GDN-Softmax)がSoftmaxのみの構成よりも動画が長くなった場合のメモリ使用量を抑えられることも示されています。

研究チームは、SANA-WMが従来のオープンソースモデルよりもカメラ軌道などの制御指示への追従精度で優れ、大規模モデルに近い視覚品質を維持しながら36倍のスループットを達成したと述べました。
どんな映像を生成できるのかについてはウェブサイトのデモ欄に多数掲載されているので、気になる人は確認してみてください。

この記事のタイトルとURLをコピーする