グーグルが人の言葉をほとんどリアルタイムで通訳する次世代音声翻訳人工知能(AI)モデル「ジェミナイ3.5ライブトランスレート(Gemini3.5 Live Translate)」を公開した。 既存の翻.. – MK

言葉の最後まで待たずに翻訳70個以上の言語を自動的に認識話者イントネーション·速度·感情を反映した音声

ジェミナイ 3.5 ライブ トランスレート 사진 확대 ジェミナイ 3.5 ライブ トランスレート

グーグルが人の言葉をほとんどリアルタイムで通訳する次世代音声翻訳人工知能(AI)モデル「ジェミナイ3.5ライブトランスレート(Gemini3.5 Live Translate)」を公開した。 既存の翻訳サービスが話者の発言が終わった後に翻訳する方式だったとすれば、新しいモデルは話を聞くと同時に翻訳音声を生成し、実際の通訳士に近い自然な対話を具現したのが特徴だ。

グーグルは9日(現地時間)、ジェミナイ3.5ライブトランスレートを公開し、グーグル翻訳、グーグルミート、ジェミナイライブAPIなどに順次適用すると明らかにした。

今回のモデルは70以上の言語を自動的に認識できる。 ユーザーが事前に言語を設定する必要なく、会話を聞いて言語を判別して翻訳する。 様々な言語が混ざっている環境でも作動する。

最大の変化は翻訳方式だ。 既存のリアルタイム翻訳システムは、一人が話を終えるまで待った後、翻訳結果を出す構造だった。 このため、対話の流れが頻繁に途絶え、ぎこちない沈黙が発生した。

一方、ジェミナイ3.5ライブトランスレートは、音声が入力されるとすぐに翻訳を開始する。 翻訳品質を高めるために文脈を一部待ちながらも、できるだけ早く結果を生成するバランスをAIが自ら判断する。 グーグルは「発話者より数秒程度だけ遅れた状態で自然に通訳が続く」と説明した。

単に単語を変えるレベルでもない。 話者のイントネーションと話す速度、音の高さ、感情表現まで最大限維持し、翻訳音声を生成する。 機械が読むような単調な音声ではなく、もともと話者の話し方を反映した自然な音声翻訳を目標にした。

実際の活用範囲も広い。 グーグルは多言語会議、国際電話、授業、放送、顧客相談、観光ガイド、車両呼び出しサービスなど多様な環境で活用できると説明した。 特に騒音の多い場所や複数の人が同時に話す状況でも動作できるように設計された。

グーグルの東南アジアプラットフォーム企業グラブはすでに該当技術を試験中だ。 グラブはドライバーと乗客の間の多言語通話をリアルタイムに近く翻訳する機能をテストしている。 グラブ利用者は毎月1000万件以上の音声通話を利用する。 グーグルは企業向けテレビ会議サービスであるグーグルミートにも該当技術を適用する。 これまでは5ヵ国語のみ支援してきたが、これからは70ヵ国以上の言語を支援する。 英語を中心に翻訳していた従来の方式から脱し、一つの会議で2000個以上の言語組合間の通訳が可能になる。

企業顧客対象の非公開試験サービスは今月から始まり、年内に一般企業顧客に拡大される予定だ。

一般消費者は同日からアンドロイドとiOS用グーグル翻訳アプリで利用できる。 イヤホンをつなげば、相手の言葉をリアルタイムで翻訳して聞くことができる。 アンドロイドには新たに追加された「リスニングモード」も提供される。 ユーザーが電話通話するようにスマートフォンを耳にかざせば、翻訳音声をイヤホンなしでも聞くことができる。

グーグルは「20年前に機械翻訳実験で始めた技術が今や毎月数兆個の単語を翻訳するサービスに成長した」として「言語障壁なしに自然に対話できる未来に一歩近づいた」と明らかにした。

[シリコンバレー、ウォノソプ特派員]