Google、音声リアルタイム翻訳モデル「Gemini 3.5 Live Translate」をリリース、「話し途中」でも翻訳が可能に(窓の杜) – Yahoo!ニュース

【画像】「Google Meet」の音声翻訳機能

 「Gemini 3.5 Live Translate」は同社最新の音声翻訳モデルで、70以上の言語に対応。話者のイントネーション、発話ペース、声の高さなどを保ちつつ、ほぼリアルタイムで翻訳音声を生成する。従来の音声翻訳は話者が話し終わるのを待ってから翻訳する「ターンバイターン」方式が主流だったが、「3.5 Live Translate」は話が途切れるのを待つことなく連続生成する「ストリーミング」方式になっており、数秒遅れで流暢な翻訳音声を生成できる。

 また、複数言語の入力を自動検出できるのも特徴。手動で翻訳言語を設定する必要はない。ノイズにも強く、騒がしい環境でも高精度な翻訳が可能だ。

 「3.5 Live Translate」は開発者向けAPIのほか、企業向けのオンラインミーティングサービス「Google Meet」や、個人ユーザーにもお馴染みの「Google翻訳」アプリでも展開される。

・開発者向け:「Gemini Live API」および「Google AI Studio」でパブリックプレビュー(モデル名:gemini-3.5-live-translate-preview)
・企業向け:「Google Meet」でプライベートプレビュー(今月開始、一般展開は今年後半の予定)
・一般向け:「Google 翻訳」アプリ(iOS/Android)でグローバル展開中

■ 「Google Meet」:言語の壁のないミーティング

 「Google Meet」の音声翻訳機能に「Gemini 3.5 Live Translate」が採用される。以前は5言語のみ、翻訳は英語経由に限られていたが、以下の点が大幅に改善される。

・対応言語:5言語から70言語以上に拡大
・英語を経由しない翻訳ペア:1回の会議で2,000以上の言語の組み合わせが利用可能に
・インターフェイスの改善

■ 「Google 翻訳」アプリ:電話のような感覚で言語を超えたコミュニケーション

 モバイル版「Google 翻訳」アプリ(iOS/Android)のライブ翻訳機能に本モデルが採用され、グローバルで展開される。ヘッドフォンを接続することで、70以上の言語のシームレスな翻訳音声を楽しめる。

 さらに、Androidではヘッドフォンなしで翻訳音声を受け取れる新機能「リスニングモード」(listening mode)が導入される。端末を耳に当てるだけで翻訳音声がイヤースピーカーから届くので、普通の電話と同じ感覚で利用できる。

 なお、本モデルが生成するすべての音声には「SynthID」のウォーターマーク(電子透かし)が不可聴域に埋め込まれる。あとからAI生成コンテンツであることを検証できるようにすることで、フェイク情報の拡散防止に役立てるためだ。

窓の杜,樽井 秀人