Google DeepMindがマルチモーダル生成モデル「Gemini Omni」を発表、自然言語による対話と推論能力による動画生成・編集が可能に - GIGAZINE

2026年05月20日 11時01分
AI

GoogleのAI研究開発部門であるGoogle DeepMindがGeminiの新しいモデルファミリーとして、動画をはじめとしたあらゆる入力から様々なものを作り出すことができる新しいマルチモーダル生成モデル「Gemini Omni」を発表しました。その第1弾としてGemini Omni FlashがGeminiアプリ・Google Flow・YouTube Shortsで順次提供されます。

Gemini Omni — Google DeepMind
https://deepmind.google/models/gemini-omni/

Gemini Omni を発表
https://blog.google/intl/ja-jp/company-news/technology/gemini-omni/

Introducing Gemini Omni: Create Anything from Anything – YouTube

Gemini Omniは自然言語だけでより直感的に動画を編集できるモデルです。すべてのプロンプトが前の文脈を引き継ぐため、登場キャラクターの見た目や特徴は一貫して保たれ、物理法則も崩れず、シーン全体の流れもしっかりと記憶されるとのこと。

たとえば「泡のアート作品を作って」というプロンプトでGemini Omniが生成した動画が以下。

「人が鏡に触れると、鏡面は液体のように美しく波紋を広げ、その人の腕は光を反射する鏡の素材へと変化していく」というプロンプトで生成した動画が以下。

「薄暗い部屋。手の上に浮かびながら追従するガラス球。球体の中には白黒チェッカーボードの部屋があり、その中に球体を持つ手が無限に再帰する空間が広がっている。カメラがゆっくり球体にズームインしていくループ」と入力すると、こんな感じの動画になります。

Gemini Omniは単にリアルに見えるシーンを作るだけでなく、「次に何が起こるか」を論理的に推論するとのこと。物理法則に対する直感的な理解と、Geminiが持つ歴史や科学、文化的な背景知識を組み合わせることで、単なる写真のような美しさを超えた、意味のある物語りが可能になるとGoogleは述べています。

短いプロンプトだけでGemini Omniが難解で複雑なアイデアをわかりやすく噛み砕いたビジュアルを生成してくれます。一例として、以下は「タンパク質の折りたたみを解説するクレイアニメ。すべてが粘土でできており、制作中の人間の手は映らないこと。ストップモーション撮影、正確な描写」というプロンプトで生成された動画です。

また、入力リファレンス機能を使うことで、お気に入りのキャラクターの画像、背景シーン、あるいは手書きのスケッチなどを活用し、思い描くビジョンに完全に一致する作品を創り出すことができるとのこと。

さらにGoogleはユーザー自身の声を使って動画を作成できるアバター機能を提供すると発表しました。これにより、ユーザーは自身のデジタルバージョンを作成し、見た目も声も自分そっくりの動画を生成できるようになります。この機能はすでに同様のものがYouTubeショートのごく一部のユーザーを対象として試験的に導入されていることが報じられています。

YouTubeがショート動画向けの「ライブセルフィー」機能をリリース、ユーザーの顔と声をリアルタイムで記録したAIアバターを使った動画を生成可能に – GIGAZINE

そして、Gemini Omniで作成されたすべての動画には電子透かし技術「SynthID」が埋め込まれるとのこと。動画がGemini Omniによって生成されたものかどうかはGemini アプリやGemini in Chrome、あるいはGoogle検索を通じて簡単に確認することができます。

Gemini Omni Flashは2026年5月20日から世界中のすべてのGoogle AI Plus、Pro、およびUltraユーザーを対象に、GeminiアプリおよびGoogle Flowを通じて順次提供が開始されます。また、YouTube ShortsおよびYouTube Createアプリユーザーにも無料で順次提供開始されます。さらに2026年6月までに、APIを通じてデベロッパーや企業向けにも提供が開始される予定です。

この記事のタイトルとURLをコピーする

Google DeepMindがマルチモーダル生成モデル「Gemini Omni」を発表、自然言語による対話と推論能力による動画生成・編集が可能に – GIGAZINE