Gemini Omni を発表

昨年公開した Nano Banana は、古い写真を復元したり、スケッチからデザインを起こしたり、これまでにない方法でアイデアを視覚化するお手伝いをしてきました。Gemini は、開発の初期段階からネイティブなマルチモーダルとして構築してきましたが、本日、また新たな可能性を広げます。

本日、Gemini の高い推論能力と創造力を組み合わせた新しいモデルファミリー「 Gemini Omni 」を発表します。 Gemini Omni は、動画をはじめとして、あらゆる入力から様々なものを創り出すことができる新しいモデルです。画像、音声、動画、テキストを自由に組み合わせて入力し、Gemini が持つ現実世界の知識に基づいたハイクオリティな動画を生成することができます。また、まるで会話をするように簡単に動画を編集することも可能です。

本日より、 Gemini Omni ファミリーの第一弾として Gemini Omni Flash を Gemini アプリ、 Google Flow 、そして YouTube Shorts で順次提供を開始します。今後、画像や音声といった出力形式にも対応予定です。

話すだけで簡単に動画編集

Gemini Omni は、自然言語だけで、より直感的に動画を編集できます。すべてのプロンプトが前の文脈を引き継ぐため、登場キャラクターの見た目や特徴は一貫して保たれ、物理法則も崩れず、シーン全体の流れもしっかりと記憶されます。

一から世界を創りだす：特定の部分を変更することも、すべてを作り変えることも可能です。自分で撮影するのが難しかったような映像も、撮影した動画を初めから全く新しい作品に変えることも可能です。