米Googleは6月9日(現地時間)、「Gemini 3.5 Live Translate」を発表した。同社の翻訳サービス「Google 翻訳」(Google Translate)の誕生20周年を記念するにふさわしい音声リアルタイム翻訳モデルだ。
【画像】「Google Meet」の音声翻訳機能
「Gemini 3.5 Live Translate」は同社最新の音声翻訳モデルで、70以上の言語に対応。話者のイントネーション、発話ペース、声の高さなどを保ちつつ、ほぼリアルタイムで翻訳音声を生成する。従来の音声翻訳は話者が話し終わるのを待ってから翻訳する「ターンバイターン」方式が主流だったが、「3.5 Live Translate」は話が途切れるのを待つことなく連続生成する「ストリーミング」方式になっており、数秒遅れで流暢な翻訳音声を生成できる。
また、複数言語の入力を自動検出できるのも特徴。手動で翻訳言語を設定する必要はない。ノイズにも強く、騒がしい環境でも高精度な翻訳が可能だ。
「3.5 Live Translate」は開発者向けAPIのほか、企業向けのオンラインミーティングサービス「Google Meet」や、個人ユーザーにもお馴染みの「Google翻訳」アプリでも展開される。
・開発者向け:「Gemini Live API」および「Google AI Studio」でパブリックプレビュー(モデル名:gemini-3.5-live-translate-preview)
・企業向け:「Google Meet」でプライベートプレビュー(今月開始、一般展開は今年後半の予定)
・一般向け:「Google 翻訳」アプリ(iOS/Android)でグローバル展開中
■ 「Google Meet」:言語の壁のないミーティング
「Google Meet」の音声翻訳機能に「Gemini 3.5 Live Translate」が採用される。以前は5言語のみ、翻訳は英語経由に限られていたが、以下の点が大幅に改善される。
・対応言語:5言語から70言語以上に拡大
・英語を経由しない翻訳ペア:1回の会議で2,000以上の言語の組み合わせが利用可能に
・インターフェイスの改善
■ 「Google 翻訳」アプリ:電話のような感覚で言語を超えたコミュニケーション
モバイル版「Google 翻訳」アプリ(iOS/Android)のライブ翻訳機能に本モデルが採用され、グローバルで展開される。ヘッドフォンを接続することで、70以上の言語のシームレスな翻訳音声を楽しめる。
さらに、Androidではヘッドフォンなしで翻訳音声を受け取れる新機能「リスニングモード」(listening mode)が導入される。端末を耳に当てるだけで翻訳音声がイヤースピーカーから届くので、普通の電話と同じ感覚で利用できる。
なお、本モデルが生成するすべての音声には「SynthID」のウォーターマーク(電子透かし)が不可聴域に埋め込まれる。あとからAI生成コンテンツであることを検証できるようにすることで、フェイク情報の拡散防止に役立てるためだ。
窓の杜,樽井 秀人