Grok 4.5、SpaceXとTeslaで社内ベータ開始─マスク氏「Opusに迫る」の真意

ある日曜の夜、一本のポストが流れてきました。「Grok 4.5が、SpaceXとTeslaの社内で動き始めた」。書いたのはイーロン・マスク氏。性能はOpusに迫るかもしれない、新モデルは毎月出す——強気な言葉が並びます。でも、私がこのポストの前で足を止めたのは、性能の話そのものよりも、その背後でロケット会社がAIと開発ツールを丸ごと自分の懐に抱え込もうとしている、その構図のほうでした。これは「どちらが速いか」という競争の話なのか、それとも、私たちがふだん使うAIの「選び方」が静かに変わっていく話なのか。一緒に読み解いていきます。

2026年6月28日、イーロン・マスク氏はXへの投稿で、xAIのAIモデル「Grok 4.5」がSpaceXとTeslaでプライベートベータに入ったと明らかにした。Grok 4.5は1.5兆パラメータの基盤モデル「V9」をベースとし、補足学習にCursorのデータを加えたものである。マスク氏によれば、初期評価での性能はOpusに迫る、あるいは上回る水準だという。強化学習(RL)による改善と、コーディング用の「Grok Build」ハーネスの改良が続いているとした。

さらにマスク氏は、ゼロから学習させた新モデルを2026年内は毎月SpaceXからリリースする予定だと述べた。

From: 文献リンクElon Musk on X(@elonmusk、2026年6月28日付ポスト)

Grok 4.5, based on our 1.5T V9 foundation model, with Cursor data added in supplemental training, is now in private beta at SpaceX & Tesla. Early evals show performance close to, perhaps exceeding Opus.

RL is continuing to significantly improve the model, and the Grok Build…

— Elon Musk (@elonmusk) June 28, 2026

【編集部解説】

このポストを「Grokがついにトップ級に並んだ」という性能ニュースとして読むと、たぶん本質を半分取りこぼします。私が今これを取り上げたいのは、ここに2026年のAI開発の「力学」そのものが凝縮されているからです。

まず押さえておきたいのは、「Opusに迫る、上回るかもしれない」という評価が、マスク氏自身による社内の初期評価に基づく主張であり、第三者が査読した独立ベンチマーク比較ではないという点です。ここは中立性に関わるので、最初にはっきりさせておきます。

その「Opus」とは、文脈上Anthropicの「Claude Opus」シリーズ、つまり各社がしのぎを削る最前線(フロンティア)モデルを指すと各メディアは解釈しています。ポスト本文ではバージョンまでは明言されていません。

数字の扱いには注意が必要です。今回のポストに、具体的なベンチマークのスコアは示されていません。コーディング能力の代表的な指標とされるSWE-bench Verifiedを見ても、各社のフロンティアモデルは公表条件によって数値が上下し、Grok 4.5そのものの独立したスコアは現時点で公開されていません。「Opusに迫る」を裏づける共通の物差しは、まだ存在しないのです。

しかも、SWE-bench Verifiedには汚染(contamination)問題が知られています。課題が学習データに混入し、モデルが実力ではなく記憶で解いてしまう可能性があるとして、OpenAI自身がフロンティア性能の指標としての使用を見直したと説明しているほどです。ベンチマークの一点だけで優劣を語るのは、もう危うい時代に入っています。

では、なぜSpaceXとTeslaという「自社」で先に動かすのか。ここに戦略の核心があります。Grok 4.5は、SpaceXが600億ドル(約9兆7000億円/1ドル=約161円換算、2026年6月下旬時点)規模での取得に動くAIコーディングツール「Cursor」のデータで追加学習されています。つまり、ロケットの設計や車載ソフトの開発という、自社の実務現場が最初の試験場になっているわけです。

この垂直統合は、見方によっては非常に合理的です。スターリンクが稼ぎ、xAIがモデルを作り、Cursorが開発者への入口になる——道具・データ・出口を一社で抱える「閉じた循環」を作ろうとしています。

一方で、潜在的なリスクも見えます。Cursorは、OpenAIやAnthropic、Googleなど各社のモデルを自由に選んで使えることを強みに、フォーチュン500の半数以上に採用されてきたツールです。買収後にGrokが既定値へと誘導されれば、ユーザーの「モデルを選ぶ自由」が静かに狭まりかねません。ここは日本の開発現場にも直結する論点です。

「毎月、ゼロから学習した新モデルを出す」という宣言も、額面どおりには受け取れません。開発の速さを誇示する強気なメッセージである一方、毎月巨大モデルを一から学習し直すには、計算資源も人材も相当の体力を要します。その頻度を本当に維持できるのか、という冷静な問いも残ります。

規制の観点も無視できません。Cursorの取得はまだ完了しておらず、年内の成立を見込む段階にあります。巨大プラットフォーマーがAI開発ツールを丸ごと取り込む動きに対し、各国の競争当局がどう向き合うのか。市場が数社へ収束していく流れは、これからの審査テーマになっていくでしょう。

最後に、私がいちばん興味深いと感じる点を一つ。マスク氏が比較対象に掲げる「Opus」を擁するAnthropicに対し、SpaceX・xAIは自社のColossusの計算資源を貸し出してもいると報じられている事実です。競い合いながら、同じインフラの上で互いを支えている。この「競争と協調の同居」こそ、2026年のAIをいちばん正確に映す鏡なのかもしれません。

数字の派手さよりも、その裏で組み替えられていく産業の地図そのものを——未来に触れたいと願う読者の皆さんには、ぜひそこを一緒に見ていただきたいのです。

【用語解説】

基盤モデル(ファウンデーションモデル)
大量のデータで事前学習され、さまざまな用途の土台となる大規模AIモデルである。製品版は、この上に追加学習を重ねて作られる。

パラメータ
モデルが学習で調整する内部の数値のこと。数が多いほど表現力は増す傾向にあるが、最終的な性能はデータや学習手法にも左右され、数だけでは決まらない。

V9
xAIの基盤モデルの内部コード名。マスク氏の投稿では1.5兆パラメータ規模とされ、報道では現行の「v8-small」(約0.5兆=5000億パラメータ)の約3倍と伝えられている。

プライベートベータ
一般公開前に、限定された利用者だけが試験的に使う段階を指す。今回はSpaceXとTeslaの社内が対象である。

補足学習(supplemental training)
事前学習を終えたモデルに、特定領域のデータを追加して性能を補強する工程。今回はCursorの開発データが用いられたとされる。

強化学習(RL)
出力の良し悪しに応じて報酬を与え、望ましい振る舞いへ調整していく学習手法。Reinforcement Learning の略である。

ハーネス(Grok Build)
モデルにツールを使わせ、タスクを実行・評価させる「足回り」の実行環境のこと。xAIのコーディング用ハーネスが Grok Build にあたる。

SWE-bench Verified
実際のGitHubの課題(500問)をAIに解かせ、リポジトリのテストに通るコードを書けるかどうかで採点する、コーディング能力の標準ベンチマークである。

汚染(contamination)
ベンチマークの課題が学習データに混入し、モデルが実力ではなく記憶で解けてしまう問題。スコアの信頼性を損なう要因となる。

Colossus
xAIが米テネシー州メンフィスに構える大規模計算施設(スーパークラスター)。モデル学習を支える計算資源の中核である。

垂直統合
開発・製造・販売といった複数の工程を一社で抱え込む経営戦略。ここではインフラ・モデル・開発ツールを自社で囲い込む構図を指す。

【参考リンク】

xAI(外部)
イーロン・マスク氏が率いるAI企業。Grokを開発し、2026年にSpaceXと統合した。基盤モデルや最新Grokの公式情報を発信している。

SpaceX(外部)
ロケットと衛星通信を手がける宇宙開発企業。xAIを統合してAI事業も展開し、今回のGrok 4.5社内ベータ運用の舞台となっている。

Tesla(外部)
EVとクリーンエネルギー事業を展開する企業。Grok 4.5の社内ベータ運用先の一つで、車載ソフトウェアへの応用が見込まれている。

Cursor(外部)
各社のモデルを選んで使えるAIコーディングエージェント。開発元のAnysphereを、2026年にSpaceXが取得する動きを見せている。

Anthropic(外部)
比較対象「Opus」を含むClaudeシリーズを開発するAI企業。xAIのColossusの計算資源を利用していると報じられている。

Grok(外部)
xAIの対話型AI「Grok」の公式サイト。今回発表されたGrok 4.5は、このGrokシリーズの最新世代にあたるモデルである。

Google Gemini(外部)
GoogleのフロンティアAIの公式窓口。性能比較で言及されるGeminiシリーズなど、最新モデルを試せるサービスを提供している。

【参考記事】

Musk says Grok 4.5 enters private beta at SpaceX and Tesla(外部)
イーロン・マスク氏の投稿内容を簡潔に整理。V9やCursorデータ学習、Opusに迫る初期評価、毎月の新モデル投入計画を伝えている。

Grok 4.5 Enters Private Beta at SpaceX and Tesla — And Musk Says It’s Already Rivaling Opus(外部)
投稿を起点にGrok 4.5の社内ベータ入りを報道。「Opusに迫る」が独立検証ではない点や、ベンチマーク汚染の問題を指摘している。

Grok V9-Medium Arrives as SpaceX Seals Cursor: Developers Face Model-Choice Risk(外部)
V9とCursorデータ学習の関係を解説。各社のベンチマーク数値(同記事による)や、開発者が直面する「モデル選択リスク」を論じている。

Elon Musk Unveils Grok 5 with 1.5 Trillion Parameters: Learning Programming Skills from Cursor(外部)
1.5兆パラメータとCursorデータ投入の狙いを分析。各社のベンチマーク数値や企業導入率(いずれも同記事による集計)を提示している。

SpaceX to acquire Cursor for $60B in stock, days after blockbuster IPO(外部)
SpaceXがCursorを600億ドル規模で取得する動きを報じる。取引条件や年内の成立見込み、xAI統合の経緯にも触れている。

SpaceX to acquire the AI coding startup Cursor for $60 billion(外部)
600億ドル規模の取得とその市場影響を報道。CursorのシェアやAnthropic・OpenAIとの競合構図を示している。

Why SWE-bench Verified no longer measures frontier coding capabilities(OpenAI)(外部)
OpenAIがSWE-bench Verifiedを指標から外した理由を説明。汚染や測定限界の問題を当事者として明らかにしている。

What skills does SWE-bench Verified evaluate?(Epoch AI)(外部)
SWE-bench Verifiedが実際に何を測るのかを分析。GitHub由来の実課題を用いる仕組みとその限界を整理している。

Anthropic to use all of SpaceX-xAI’s Colossus 1 data center compute(DCD)(外部)
xAIのColossusの計算資源を、競合のAnthropicが利用すると報じる記事。両社の「競争と協調」の関係を裏づけている。

米ドル/円 ヒストリカルレート(Wise)(外部)
ドル円の実勢レート確認に使用。2026年6月下旬が161円台で推移したことを示し、本文の円換算の根拠とした。

【関連記事】

SpaceX、Cursor買収でAmazon超え ― 時価総額2.9兆ドルへ急騰の真相(内部)
本記事の核心である600億ドルのCursor買収を、株価と市場インパクトの側面から詳報した姉妹記事。あわせて読むと立体的に理解できる。

xAI「Grok Build」がSuperGrok・X Premium Plus加入者に開放 Claude Code・Codex CLIに続く選択肢へ(内部)
本文で触れた「Grok Build」ハーネスの製品実態を解説。エージェント型コーディングの設計思想まで踏み込んでいる。

SpaceXの報道|監視する欧米、参加する日本――巨額IPOの波とFable 5が示した依存のコスト(内部)
SpaceXのIPOとAnthropicへの計算資源提供という、本記事の背景にある資本・インフラの構図を補完する。

【編集部後記】

冒頭で「足を止めた」と書きました。その正体を、最後に少しだけ言葉にしてみます。

マスク氏の言葉は、いつも未来を一足飛びに見せてくれます。毎月ゼロから新しいモデルを出す、という宣言は、たしかにワクワクします。けれど同じくらい、私は「便利さの入口を一社が握る」という静かな変化のほうが気になりました。Grokを育てる場が自社の現場で、その学習データが各社のモデルを選べたはずのツールから来ている。便利さと引き換えに、選択肢が一本道になっていないか。そこは立ち止まって確かめたいところです。

数字についても同じです。「Opusに迫る」と聞くと、つい順位表を探したくなります。でも今回のポストに具体的なスコアはなく、そもそもその物差し自体が揺らいでいる、という事情を知ったとき、私は少しほっとした気もしました。数字の勝ち負けから一歩離れて、「この技術で何ができるようになるのか」を自分の頭で考える余白が、まだ残されているということだからです。

未来の技術は、期待と不安をいつもセットで運んできます。私はそのどちらも切り捨てずに、みなさんと同じ場所から眺めていたいと思っています。今日のポストを見て、あなたはワクワクしましたか。それとも、少し身構えましたか。その感覚こそが、これから先を一緒に考えていく出発点になる気がしています。よかったら、聞かせてください。