「ターン制AI」はもう古い。元OpenAI CTOが放つ「全二重AI」の衝撃 | XenoSpectrum

これまで我々が体験してきた人工知能との音声会話は、言うなれば、本質的に「トランシーバー越しの文通」であった。

ユーザーが話し終わるまで、モデルはただ沈黙して待機する。音声区間検出(VAD)という旧式なセンサーが人間の発話終了を判定して初めて、AIの認識プロセスが起動する。一度AIが話し始めれば、彼らは自らの生成プロセスに没頭し、こちらの相槌や表情の変化といった細かな文脈を完全に無視してしまう。現代の巨大な言語モデルは膨大な知識を誇りながらも、現実世界を単一のスレッドとしてしか認識できない極めて不器用な存在に留まっていた。

自律的エージェントの能力向上ばかりが業界の至上命題とされるなか、人間はAIのワークフローから徐々に締め出されつつある。これは人間が不要になったからではない。人間が介入するためのインターフェースの余白がシステム側に存在しないからだ。

この深刻なボトルネックに対し、元OpenAIのCTOであるMira Murati氏が率いる気鋭のスタートアップ、Thinking Machines Labがひとつの解答を提示した。彼らが発表した「インタラクションモデル(Interaction Models)」のプレビューは、既存のAIシステムが抱えていた物理的・構造的な限界を根本から覆す可能性をはらんでいる。

彼らが成し遂げたのは、既存のモデルに継ぎ接ぎのコードを足してリアルタイム性を模倣することではない。モデルの根幹アーキテクチャそのものに時間軸を埋め込み、人間のコミュニケーションと同じ「全二重(Full-Duplex)通信」をネイティブで処理させるという荒業だ。

01.時間の概念を組み込む。200ミリ秒で刻む「知覚と応答」の連続性02.非同期アーキテクチャが生む「知性」と「反射神経」の共存03.人間の限界を超える反射神経。0.40秒のレイテンシと未知のプロアクティブ性能04.ハイステークス領域を塗り替える。エンタープライズへの波及効果05.物理的限界への挑戦と残された代償時間の概念を組み込む。200ミリ秒で刻む「知覚と応答」の連続性

従来のAI開発におけるリアルタイム化のアプローチは、既存のテキストベースLLMの周囲に様々な外部コンポーネントを張り巡らせることで成立していた。音声のテキスト化、発話終了の検知、あるいは再音声化を担う個別のモジュール群である。これらを鎖のように繋ぎ合わせた「ハーネス(馬具)」と呼ばれる構造は、モデル自身が賢くなればなるほどシステム全体への過負荷を招き、応答遅延という致命的なペナルティを生み出していた。

Thinking Machines Labは、この手作りのスキャフォールディング(足場)を完全に放棄した。彼らが採用したのは「Time-aligned micro-turns(時間調整されたマイクロターン)」と呼ばれる設計思想である。

モデルは、ユーザーからの入力を一度の巨大な塊(ターン)として受け取るのではない。入力ストリームと出力ストリームをわずか200ミリ秒という極小のチャンク(断片)に切り刻み、連続的かつ交互に処理し続ける。映画のフィルムが1秒間に数十コマの静止画を連続再生して滑らかな動きを生み出すように、モデルは200ミリ秒ごとに世界を知覚し、自らの応答を即座に生成する。

これにより、モデル内部には沈黙や言葉の重なり、さらには唐突な割り込みといった現実のノイズが「コンテキストの一部」として自然に保持される。人間が途中で「いや、やっぱり今の計算は間違っていた」と発言すれば、AIは自らの生成を即座に中断して軌道修正を行う。これは音声をテキストに変換してから再プロンプトをかける従来の処理とは次元が異なり、モデルが自律的に譲り合いや自己訂正のタイミングを計ることを意味している。

FireShot Capture 562 - Interaction Models\_ A Scalable Approach to Human-AI Collaboration -\_ - [thinkingmachines.ai].webpテキスト、動画のフレーム、音声を重いエンコーダーを介さずに直接軽量な埋め込み層へと通し、トランスフォーマーで統合処理するアーキテクチャ。200ミリ秒という極小の枠組みで入出力を処理することで、人間が体感する同時性をモデル内部で再現している。
(Credit: Thinking Machines Lab. https://thinkingmachines.ai/blog/interaction-models/)

このリアルタイム性を支えるのが、「エンコーダーフリーのアーリーフュージョン」という大胆なネットワーク設計だ。通常、マルチモーダルモデルはWhisperのような巨大な独立した音声エンコーダーを必要とする。しかし今回のアーキテクチャでは、生の音声信号をdMel(離散化されたメルスペクトログラム)として直接抽出し、軽量な埋め込み層を通過させるだけでトランスフォーマーに叩き込む。映像も40×40のパッチに分割され、hMLPを介して同様に処理される。すべての入出力コンポーネントがトランスフォーマーと並行してゼロから共同学習(Co-trained)されているため、データの変換ロスと待機時間が極限まで削ぎ落とされている。

非同期アーキテクチャが生む「知性」と「反射神経」の共存

しかし、ここでひとつの巨大なジレンマが生じる。200ミリ秒単位での即応性を維持しながら、どうやって深い推論や外部ツールへのアクセス(ウェブ検索やコード実行)を行うのか。思考に時間がかかれば、当然ながら会話はフリーズしてしまう。

彼らの解決策は、システムを二つの頭脳に分割することであった。

前面に立つ「インタラクションモデル」は、ユーザーとの絶え間ない対話を維持することに特化している。相槌を打ち、質問をさばいて会話の糸を繋ぎ止める。深い推論や検索が必要な要求が飛び出した瞬間、このモデルは会話のコンテキスト全体をパッケージ化し、背後に控える「バックグラウンドモデル」へとタスクを委譲する。

バックグラウンドモデルが非同期で重い演算を行っている間も、インタラクションモデルはユーザーと世間話を続けたり、新たな指示を受け付けたりして場を持たせる。背後の演算が完了し次第、その結果を最適なタイミングで自然な会話の流れの中に織り込む仕組みだ。現代のOSがマルチスレッド処理を用いてバックグラウンドで重いレンダリングを行いながら、フォアグラウンドのUIを滑らかに動かし続けるのと同じ設計思想である。AIのエコシステムにおいて、人間との対話インターフェースがシステムレベルで最適化された歴史的な一歩と言える。

人間の限界を超える反射神経。0.40秒のレイテンシと未知のプロアクティブ性能

この野心的なアーキテクチャが机上の空論ではないことは、ベンチマークの数値が如実に物語っている。同社が発表した12Bアクティブパラメータ(総パラメータ数276B)のMoE(Mixture of Experts)モデル「TML-Interaction-Small」は、応答速度と知能の両面で既存の巨大資本モデルを圧倒している。

以下の表は、各社の最新ストリーミング対応モデルとの性能を比較したものだ。

会話におけるターンテイキング(話者の切り替わり)の遅延において、TML-Interaction-Smallは0.40秒という数値を叩き出している。人間同士の自然な会話の遅延が概ね0.2秒から0.3秒であることを考慮すると、これは人間が違和感を覚えない閾値に限りなく近い。Googleの軽量モデルであるGemini-3.1-flash-live(0.57秒)や、OpenAIのGPT-realtime-2.0(1.18秒)と比較しても、その俊敏さは突出している。

特筆すべきは、インタラクションの品質を測るFD-bench v1.5におけるスコアの乖離である。ユーザーの突然の割り込み、周囲のバックグラウンドノイズ、複数人の会話といった複雑なシナリオにおいて、既存モデルが40〜50点台で苦戦するなか、TMLモデルは77.8という驚異的な数値を記録した。彼らが提唱するネイティブな全二重アーキテクチャが、現実世界のノイズに対して強靭な耐性を持っている証明である。

FireShot Capture 563 - Interaction Models\_ A Scalable Approach to Human-AI Collaboration -\_ - [thinkingmachines.ai].webp音声を通じた推論能力(横軸)とインタラクションの質(縦軸)の相関。TML-Interaction-Small(赤点)が、既存モデルが決して到達できなかった「高い賢さと極めて自然な会話の質」という両極を単独で切り拓いている。
(Credit: Thinking Machines Lab. https://thinkingmachines.ai/blog/interaction-models/)

さらに同社は、既存のベンチマークでは測りきれない「能動的(プロアクティブ)なインタラクション」という新たな評価軸を提示している。「私の呼吸に合わせて、4秒ごとに息を吸って、吐いてと指示して」という時間経過に依存したタスクや、「映像を見ながら腕立て伏せの回数を数えて」といったリアルタイムの映像解析と発話を連動させるタスクにおいて、既存の音声対応AIは沈黙するか見当違いの応答を返す。対してTMLモデルは、内蔵された「時間感覚」によってこれらの同時処理を的確に遂行する。

ハイステークス領域を塗り替える。エンタープライズへの波及効果

この「時間感覚を伴うプロアクティブな視覚・音声認識能力」がもたらす影響は、個人のフィットネス管理といった限定的な用途に留まらない。SiliconANGLEの報道にもあるように、真のパラダイムシフトはエンタープライズ環境のハイステークスな現場で起きる。

低遅延で自律的に状況を判断するAIの登場は、例えば製造現場における監視カメラと連動した瞬時の異常検知システムを可能にする。人間の監督者が巡回して違反を発見するのを待つのではなく、モデルが映像ストリームをリアルタイムで解析し、危険な化学反応の兆候や安全規定違反を察知した瞬間に現場の作業員へ直接音声で警告を発することができる。

また、医療のオペ室における医師のサポート役や、1秒の判断遅れが致命傷となる自律走行車の監視モジュールなど、極限の即応性が求められる領域において「人間の代替」となり得るポテンシャルを秘めている。カスタマーサポートの領域においても、人間特有の相槌や間合いを完全に模倣できるモデルの登場は、電話対応業務の完全な自動化への最後のピースとなるだろう。

物理的限界への挑戦と残された代償

しかし、このブレイクスルーが無傷で成立しているわけではない。リアルタイムかつ連続的なマルチモーダル処理は、システム設計に対していくつかの深刻なトレードオフを突きつけている。

第一に、コンテキストウィンドウの枯渇問題である。200ミリ秒ごとに音声と映像の生データを絶え間なく処理し続けるということは、モデルの記憶領域(GPUのKVキャッシュ)を桁違いの速度で食いつぶすことを意味する。短時間から中程度の対話であればSGLangに実装されたストリーミングセッション機能(状態をGPUメモリに保持し続ける最適化)で乗り切れるが、長時間のミーティング監視や終日の監視業務となれば、現在のコンテキスト管理手法では確実に破綻する。

第二に、通信インフラへの極端な依存だ。デバイス側での処理(エッジAI)ではなくクラウド側の巨大なMoEモデルで推論を行う以上、数十ミリ秒単位のパケットロスやネットワークの遅延がそのまま「会話の吃音」や「思考の停止」としてユーザー体験を直撃する。不安定な回線下において、このシステムは従来のターン制モデル以上に脆弱性を露呈する。

製造的・経済的な課題も無視できない。現在プレビューされているのは12Bアクティブパラメータの「Small」モデルに過ぎない。これをGPT-4クラスの巨大モデルへとスケーリングした場合、推論ごとの計算オーバーヘッドが急増し、200ミリ秒の制約を守り切ることは現在のハードウェアアーキテクチャでは極めて困難だ。推論速度とモデルサイズのスケーリング則が真っ向から衝突する未踏の領域に彼らは足を踏み入れている。

人工知能とのコミュニケーションは、長らく「キーボードと画面」という物理的な制約によって規定されてきた。Thinking Machines Labが放った一石は、その制約を取り払い、AIを単なる道具から「同じ時間と空間を共有する同僚」へと引き上げようとする壮大な試みである。今年後半に予定されている一般公開版が、実験室の理想的な環境を飛び出し、現実世界の過酷なネットワーク環境下でどこまでこの魔法を維持できるのか。AIインターフェースの次なる覇権を巡る戦いは、いよいよミリ秒単位の領土争いへと突入した。