動画生成AI「Grok Imagine 1.5 Preview」が動画生成AIベンチマークで世界1位と2位を獲得 – GIGAZINE

2026年06月09日 14時00分
AI


2026年6月3日、xAIは画像から動画を生成することができるAIモデルの「Grok Imagine 1.5 Preview」を発表しました。このGrok Imagine 1.5 Previewは、複数のAIベンチマークで世界1位と2位を記録したことが明らかになっています。

Grok Imagine 1.5 Preview | xAI
https://x.ai/news/grok-imagine-1-5


Grok Imagine 1.5 Previewは、1枚の静止画を映画のような動画に変換することができるという動画生成AIです。開始フレームと動きを説明するプロンプトを指定するだけで、カメラワーク・雰囲気・物理法則などを含め、元の画像に忠実に続くシーンを生成することが可能。Grok Imagine 1.5 Previewで生成できる動画の解像度は最大720p(1280×720ピクセル)で、動画の長さは最大15秒です。

Grok Imagine 1.5 Previewで生成した動画の事例は以下の通り。


Grok Imagine 1.5 Previewは自然言語による指示に従って動画を生成します。Grok Imagine 1.5 Previewは入力フレームのディテールとライティングを保持するため、結果は元の画像を再解釈するのではなく、そのまま引き継ぐものとなります。


なお、Grok Imagine 1.5 PreviewはxAI APIを通じてプレビュー版として利用可能です。

そんなGrok Imagine 1.5 Previewが、Artificial Analysisの画像から動画を生成する動画生成AIのクオリティを評価するベンチマークであるVideo Arena(音声あり)で、Seedance 2.0に次ぐ世界2位のスコアを獲得しました。なお、Grok Imagine 1.5 Previewは1分の動画を生成するのに8.40ドル(約1350円)かかります。

Grok debuts grok-imagine-video-1.5-preview, achieving #2 in Image to Video (With Audio) in the Artificial Analysis Video Arena, behind only ByteDance’s Seedance 2.0!

grok-imagine-video-1.5-preview is @xAI’s latest video generation model, currently supporting only Image to Video… pic.twitter.com/VOIFbxMjXz

— Artificial Analysis (@ArtificialAnlys) June 8, 2026


音声なし版のVideo Arenaでは、Grok Imagine 1.5 Previewは3位にランクイン。


「ジャケットのジッパーがスムーズに上方向に引かれます。ジッパーの音は連続しており、スライダーの動きにぴったりと同期し、トップで即座に止まります」というプロンプトで生成した動画を、Grok Imagine 1.5 Preview・Seedance 2.0・HappyHorse 1.0・Veo 3.1と比較したのが以下。Grok Imagine 1.5 Previewが生成した動画では、ジャケットのジッパーをスムーズに上方向に引くことができていますが、GoogleのVeo 3.1はジッパーを引く表現ができません。

Prompt 1/4: A jacket zipper is pulled upwards smoothly. The zipper sound remains continuous and aligned with the slider’s motion, stopping instantly at the top. pic.twitter.com/JfLNDHPSiu

— Artificial Analysis (@ArtificialAnlys) June 8, 2026


「女性は化粧を終え、唇の油分を拭き取り、鏡をチェックし、バッグを手に取り、投げキッスをして、歩き出す。口紅のキャップがカチッと閉まる音、鏡をちらりと見る音、バッグが擦れる音、キスをする音、ヒールの音がカツカツと鳴る」というプロンプトで生成した動画が以下。ここでもVeo 3.1は鏡に映る女性の服と、実際の服の色が異なっています。

Prompt 2/4: She finishes her makeup > blots her lips > checks the mirror > grabs her bag > blows a kiss > walks out. Lipstick cap click, mirror glance, bag rustling, kiss sound, and heels clicking. pic.twitter.com/VQhkJczuA2

— Artificial Analysis (@ArtificialAnlys) June 8, 2026


「宙返りが完璧に決まり、彼女は着地を成功させ、観客は大興奮。着地、両手を上げて歓声を上げる」というプロンプトで生成した動画が以下。


「街が鮮やかな色彩と大胆な線でアニメスタイルに変身する。人々がアニメーションのような動きで動く。柔らかな街の音とローファイ音楽」というプロンプトで生成した動画が以下。

Prompt 4/4: City transforms into anime style with vibrant colors and bold lines. People move with animated motion. Soft city sounds and lo-fi music. pic.twitter.com/RB8HQ8bcAk

— Artificial Analysis (@ArtificialAnlys) June 8, 2026


なお、Grok Imagine Video 1.5 Previewはクラウドソーシング型ベンチマーク・Design ArenaのImage to Video(画像から動画を生成)部門で「Elo 1357」を記録し、Seedance 2.0を上回り1位に輝きました。

Grok Imagine Video 1.5 Preview by @xAI reclaims 1st in Image to Video with an Elo of 1357 on Design Arena.

With this model, @xAI establishes new Pareto frontiers in both Speed and Price, with an average generation time of 41.2 seconds and $0.01/img and $0.08/sec for the 480p… pic.twitter.com/3AyS89mNtk

— Design Arena (@Designarena) June 8, 2026

この記事のタイトルとURLをコピーする