Googleの新AIモデル、Nvidia GPUで毎秒1,000トークンを達成

Google DeepMindは2026年6月10日、テキストを逐次ではなく並列ブロックで生成する新しいテキスト生成モデル「DiffusionGemma」を公開しました。

同社によると、このモデルはNvidia製GPUハードウェア上で毎秒最大1,000トークンに到達するとしています。

報告によれば、DeepMindのベンチマークでは、DiffusionGemmaは同等の計算資源において、従来のGemma自己回帰モデルより4倍高速に動作しました。別のベンチマーク報告では、Nvidiaハードウェア上で実施された長文コンテキスト推論テストにおいて、トークンスループットが10倍に向上したことが確認されています。

DiffusionGemmaの仕組み

従来の大規模言語モデルは、1トークンずつ順番に生成します。DiffusionGemmaは、拡散ベースのアーキテクチャを用いて、テキスト全体のブロックを同時に生成します。このアプローチにより、特に長い出力において待ち時間が大幅に削減されます。
DeepMindは、このモデルが生成中に複雑なMarkdownや構造化フォーマットを自己修正できると述べています。

この能力は、コードアシスタント、ドキュメント作成ツール、構造化データパイプラインを構築する開発者を主な対象としています。モデルは、Nvidia RTXコンシューマーGPUやDGXエンタープライズシステムでのローカル展開向けに最適化されています。

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

背景

Google DeepMindは過去1年間で、用途の異なる複数のGemma系モデルを公開し、オープンウェイトのモデルファミリーを拡充してきました。DiffusionGemmaは、GemmaラインにおいてDeepMindが初めて拡散アーキテクチャをテキスト生成に適用した事例となります。

他の研究機関による従来の拡散型テキストモデルは、研究環境では速度面の優位性を示していた一方で、実運用での展開は限定的でした。DeepMindの今回の公開により、この手法が既存の開発者向けツール群を備えた広く利用されているモデルファミリーに導入されることになります。

このタイミングは、今週初めにAnthropicが発表したClaude Fable 5に続くものです。同モデルは推論およびコーディングタスクで新たなベンチマークを樹立しました。これに対しDeepMindは、ハードウェアレベルでの推論速度そのものに焦点を当て、高いスループットによる大規模デプロイを重視し、スコア競争とは異なる競争軸を狙っています。

Nvidiaも直接的な恩恵を受けます。DGXおよびRTX向けの最適化により、Nvidiaハードウェアはローカル環境における最先端モデル推論の事実上の標準プラットフォームとしての地位を固めつつあります。

今後注目されるのは、開発者による採用スピードと、DiffusionGemmaのスループットがNvidia以外のハードウェア構成でもどこまで再現されるかという点です。

Read Next: SpaceX’s $250B IPO Is Draining Crypto Liquidity, Traders Fear

Googleの新AIモデル、Nvidia GPUで毎秒1,000トークンを達成 | Yellow.com