xAI Voice Agent Builder登場｜コード不要で電話AIを構築、Grok Voiceが挑む音声の一本道

電話をかけると、少し待たされてから流れる保留音。オペレーターにつながるまでの、あの独特の時間。多くの人が一度は経験したことのある光景が、静かに書き換えられようとしています。今回xAIが打ち出したのは、コードを一切書かずに「電話に出るAI」を自分でつくれる仕組みです。予約を受ける、注文を確認する、必要なら人間に代わる——これまで専門の開発者がいなければ手が出せなかった領域が、通話の流れを言葉で書くだけで組み立てられる。しかも、その値付けが業界の常識をひっくり返しにきています。音声で仕事が回る世界は、もう遠い未来の話ではないのかもしれません。

xAIは2026年7月1日、Grok Voice上で本番運用向けのボイスエージェントを構成するノーコードのプラットフォーム「Voice Agent Builder」のベータ版を発表した。コードを書かずに約2分でエージェントを作成でき、テレフォニー、ナレッジ検索、ツール、ガードレール、MCP、オブザーバビリティを一か所で提供する。既存の電話番号をSIP経由で接続でき、ツールをAPIやMCPサーバー、WebSocketに接続することもできる。

ベンチマーク「τ-voice Bench」では、Grok Voice Think Fast 1.0が67.3%、Gemini 3.1 Flash Liveが43.8%、GPT Realtime 1.5が35.3%だった。ドキュメントはナレッジベースとして扱い、Google Calendar、Outlook Calendar、Linear、Notion、Google Drive、OneDriveなどと連携する。80以上の音声を利用でき、約2分の音声から声のクローンを作成できる。料金は音声1分あたり$0.05、無料番号のテレフォニーは追加で1分あたり$0.01である。

From: Introducing the Voice Agent Builder

【編集部解説】

xAIが今回発表した「Voice Agent Builder」を理解するには、まず「音声エージェント（ボイスエージェント）」が抱えてきた構造的な問題を押さえる必要があります。従来、電話で応対するAIをつくるには、音声を文字に変換する「音声認識（STT）」、返答を考える「言語モデル（LLM）」、文字を音声に戻す「音声合成（TTS）」という3つの部品を、多くの場合それぞれ別の会社のサービスから調達し、自力でつなぎ合わせる必要がありました。

この「継ぎ接ぎ構造」こそが、遅延・コスト・故障の温床でした。バトンの受け渡しが増えるたびに応答は遅れ、料金メーターは別々に回り、どこか一つが止まれば会話全体が崩れます。Grokの主張は、この3段構えを分解して寄せ集めるのではなく、Grok Voiceという単一のモデルに密結合させた「speech-to-speech（音声から音声へ）」の一本道に置き換えた、という点にあります。

さらに今回の目玉は、それを「ノーコード」で扱えるようにしたことです。通話の流れを日常の言葉で書き、ドキュメントやツール、ガードレールを取り付ければ、約2分でエージェントが立ち上がる。これまでWebSocketや音声ストリーミング、電話回線の統合といった専門知識が要求された領域が、開発者でない事業者にも開かれた意味は小さくありません。音声AIの「民主化」と呼べる動きです。

技術的な裏付けとして、xAIは「τ-voice Bench」というベンチマークを引いています。これは元々、AIエージェント企業のSierraによる音声エージェント評価基盤で、論文は2026年3月にarXivで公開され、Sierraも関連する解説を公開しています。小売・航空・通信の3領域278タスクを、ノイズや訛り、話し手の割り込みといった現実的な音声条件のもとで採点するものです。xAIの掲示ではGrok Voice Think Fast 1.0が67.3%、Gemini 3.1 Flash Liveが43.8%、GPT Realtime 1.5が35.3%とされています。ただし、これはxAI自身が掲載したスコアであり、第三者による独立検証の結果とは区別して読む必要があります。

料金面のインパクトも見逃せません。エージェントは音声1分あたり$0.05、無料番号の電話接続は追加で1分あたり$0.01。10分の通話でおよそ$0.60という計算です。ここが巧妙なのは、競合の多くが「BYOK（自前の鍵を持ち込む）」方式で、$0.05という表向きの安さの裏にSTT・LLM・TTS・電話の実費が積み重なる構造だという点です。比較記事では、構成次第で実際には1分あたりおよそ$0.07〜0.33程度まで上がるとの試算もあります。xAIは音声込みで別途プラットフォーム料金を取らない「掛け算で完結する少数のメーター」を打ち出し、価格の透明性そのものを競争軸に据えました。

ポジティブな側面は明確です。中小の事業者でも、予約受付やカスタマーサポート、一次対応の電話窓口を短時間・低コストで自動化できるようになります。Google CalendarやOutlook、Linear、Notion、Google DriveやOneDriveといった実務ツールと連携し、単に「話す」だけでなく予約を入れる、返金する、人間に転送するといった「行動する」ところまで踏み込めるのが実用上の要点です。

一方で、潜在的なリスクも直視すべきです。xAIはパスフレーズと話者埋め込み照合による2段階検証を設けていますが、約2分の音声から声のクローンを作れる機能は、ブランドボイスの一貫性という利便を生む反面、なりすましや音声詐欺への転用リスクと表裏一体です。xAIはカード番号の読み上げ禁止といったガードレールも用意していますが、大量の自動発信が容易になれば、迷惑電話や説得力のある詐欺の自動化といった悪用の裾野も広がります。この点は、通話録音の同意や自動音声通話に関する各国の規制と、今後どう噛み合うかが問われます。

長期的な視点で見れば、これは「音声インターフェースが再びコンピューティングの主戦場に戻りつつある」流れの一角です。かつてスマートスピーカーが担いきれなかった「複雑な業務を電話で完結させる」領域に、推論するモデルが本格的に降りてきた。イーロン・マスク率いるxAIが価格と統合性を武器に本格参入したことで、OpenAI、Google、ElevenLabsやVapiといった各社との競争は一段と激しくなります。未来を触りたい読者にとって、いま自分の手で「最も難しいワークフローを与えて電話をかけてみる」ことができる──そこにこそ、このニュースを今取り上げる意味があります。

【用語解説】

ボイスエージェント（音声エージェント）
電話やアプリ上で人間と音声で会話し、問い合わせ対応や予約などのタスクを自律的にこなすAIのこと。単に受け答えするだけでなく、記録の照会や更新といった「行動」まで担う点が従来の自動音声応答と異なる。

ノーコード
プログラミングコードを書かずに、画面上の設定や日常的な言葉の記述だけでソフトウェアやサービスを構築できる手法。専門の開発者でなくても扱えるため、利用者の裾野が広がる。

speech-to-speech（音声から音声へ）
入力された音声を、途中でいったん文字に起こす複数段階を経ず、音声のまま処理して音声で返す方式。中継が減ることで遅延や誤りを抑えやすいとされる。

STT／LLM／TTS
音声AIを構成する3要素。STT（Speech-to-Text）は音声を文字に変換する音声認識、LLM（大規模言語モデル）は返答内容を考える頭脳、TTS（Text-to-Speech）は文字を音声に変換する音声合成を指す。従来はこれらを別々に組み合わせるのが一般的だった。

τ-voice Bench（タウ・ボイス・ベンチ）
音声エージェントの実力を測るベンチマーク。小売・航空・通信の3領域のタスクを、ノイズや訛り、割り込みといった現実に近い音声条件のもとで採点する。

MCP（Model Context Protocol）
AIモデルを外部のツールやデータ源と接続するための共通規格。これに対応することで、エージェントが多様な外部サービスと連携しやすくなる。

ガードレール
AIがしてはいけないことに制限を設ける仕組み。記事内では、カード番号を読み上げない、台本から外れた話題を扱わない、といった例が挙げられている。

オブザーバビリティ（可観測性）
システムの内部で何が起きているかを外から把握できる状態のこと。記事では、通話の録音・文字起こしや、エージェントがどのツールを使ったかを確認できる機能を指す。

SIP
インターネット回線を通じて電話の発着信を制御する通信規格。これにより、既存の電話番号をそのままAIエージェントに接続できる。

ナレッジベース／コレクション
ナレッジベースは、エージェントが通話中に参照する社内文書などの知識の集まり。コレクションはその文書を用途ごとにまとめた単位で、複数のエージェント間で共有できる。

BYOK（Bring Your Own Key／自前の鍵を持ち込む）
利用者が自分でSTTやLLM、TTSなど各社のサービス契約を用意し、プラットフォームにはその接続の場だけを借りる方式。表向きの単価は安く見えるが、各部品の実費が別途積み上がる構造になりやすい。

【参考リンク】

xAI（公式サイト）（外部）
Grokを開発するAI企業。テキスト・音声・画像・動画を単一のAPIで扱える基盤を提供している。

xAI Voice（Voice Agent Builder紹介ページ）（外部）
ノーコードでボイスエージェントを構築できる製品の紹介ページ。会話例や主要機能をブラウザ上で確認できる。

xAI Voice API（外部）
開発者向けの音声API群の紹介。リアルタイム対話、音声合成、文字起こしなどの機能や管理機能を案内している。

xAI Docs（音声ガイド）（外部）
Voice Agent APIの技術ドキュメント。WebSocket接続やツール利用など、実装に必要な仕様を解説している。

Grok Voice Agent API（2025年12月の発表記事）（外部）
今回のBuilderの土台となった音声エージェントAPIの発表記事。速度やコスト効率の主張、対応言語が記載されている。

Sierra（τ-voice Bench 解説）（外部）
τ-voice Benchを公開したSierraによる解説。現実的な音声条件下でエージェントを評価する意義が述べられている。

【参考記事】

xAI launches Voice Agent Builder in beta with aggressive per-minute pricing（外部）
7月1日のベータ公開を報道。1分$0.05、電話接続+$0.01で10分約$0.60と整理し、競合より経済的と位置づけている。

AI Voice Agent Pricing Per Minute in 2026: Vapi vs ElevenLabs vs Deepgram vs Retell vs Ringlyn（外部）
2026年の音声エージェント単価が$0.07〜$0.35と5倍の開きがあり、隠れた費用が積み上がる仕組みを分解している。

AI Voice Agent Cost Calculator 2026（外部）
14プラットフォームの部品別単価を試算。音声スタックを構成する各要素のコスト内訳を細かく示した記事。

AI Voice Agent Pricing（外部）
BYOK構成で各部品を積み上げると1分$0.25〜0.33に達すると試算。表向きの単価と総コストの差を具体的に示す。

xAI Launches Grok Voice Agent Builder Beta for Developers（外部）
3つのAPIを単一インターフェースに置き換えた点を解説。土台のAPIやカスタム音声対応の登場経緯にも触れている。

𝜏-voice: benchmarking real-time voice agents（外部）
τ-voice Benchの設計思想を示した公式解説。278タスクを現実的な音声条件で採点する狙いを説明している。

Grok Voice Agent API（外部）
Builderの前身となるAPIの発表。1分$0.05の均一料金、音声推論ベンチでの首位主張などが記載されている。

【関連記事】

Grokボイスエージェント API登場―xAIが音声AI市場に本格参入、業界最安値の価格設定で競合を圧倒
今回のVoice Agent Builderの土台となった、Voice Agent API（1分$0.05）の発表を報じた前提となる一本。（2025年12月18日公開）

xAI「Custom Voices」発表 1分の音声で本人クローン、二段階検証で他人の声を構造的に防ぐ
本記事で触れた声のクローンと、パスフレーズ＋話者埋め込み照合による二段階検証を詳報した記事。（2026年5月4日公開）

NTTドコモビジネス、ElevenLabsの音声AIをコンタクトセンターに統合へ｜出資が生んだ協業
企業のコンタクトセンターへの音声AI導入という応用面で重なる、競合ElevenLabs側の動きを伝える記事。（2026年7月1日公開）

【編集部後記】

正直なところ、「2分でつくれる」という一文を最初に読んだとき、少しだけ身構えました。手軽さを強調する売り文句は世の中にあふれていて、実際に触れてみるとそこまででもない、という経験を何度もしてきたからです。それでも今回、続きを読み進めるうちに気持ちが変わっていきました。ここで起きているのは「便利な機能がまた一つ増えた」という話ではなく、電話応対という、これまでずっと人の手と時間を必要としてきた仕事の輪郭そのものが変わりはじめている、ということなのだと思います。

心が動いたのは、値付けの部分でした。1分あたり数セントという数字は、大企業だけのものだった自動化を、個人商店や小さなチームの手元まで引き下げます。予約の取りこぼしに悩む店主、問い合わせ対応に追われる数人の会社——そういう人たちが、はじめて「自分にも使える」と感じられる価格に降りてきた。技術のニュースはとかく性能の高さに目が向きがちですが、誰の手に届くかという一点こそ、その技術が社会をどう変えるかを左右するのだと、あらためて感じます。

一方で、手放しでは喜べない部分にも触れておきたいと思います。わずかな音声から声を写し取れる機能は、便利さと紙一重で、なりすましや詐欺の道具にもなりえます。作り手が検証の仕組みを設けていることは心強いものの、大量の電話を自動でかけられる力が広く行き渡ったとき、その力がどこへ向かうかは、結局のところ使う側に委ねられます。便利さの明るさと、その裏にある影。その両方を同じ強さで見つめておくことが、こういう技術と長くつきあっていくうえで欠かせないのだと考えています。

だからこそ、机上であれこれ語るより、実際に番号を取って、いちばん答えにくい問い合わせを打ち込んで、自分の電話にかけてみたい——そんな気持ちがふつふつと湧いてきます。あなたなら、どんな電話を任せてみたいでしょうか。逆に、これだけは人の声で受けたいと感じるやり取りは何でしょう。その線引きを探る過程そのものが、変わりゆくこの分野といちばん深くつきあう方法なのだと思います。