Anthropic、IPO申請直前に旗艦モデルが大炎上——Claude Opus 4.8、アイデンティティ混乱と天文学的コストで批判殺到 — BigGo ファイナンス

世界で最も評価額の高い未上場AI企業であるAnthropicが、秘密裏にIPO申請を提出した前日、650億ドル(約10.4兆円)のシリーズH資金調達完了を発表し、事後評価額は9,650億ドル(約154.1兆円)と、一気にOpenAIを追い抜いた。しかし、大きな期待を背負った最新旗艦モデル「Claude Opus 4.8」は、リリース後最初の週末にネット上で全面的な評判崩壊に見舞われた。アイデンティティ認識の混乱から目を見張るトークン消費速度に至るまで、この大炎上は、同社が株式市場への上場という瀬戸際に立つ重要なタイミングで発生し、その輝かしい成長シナリオに暗い影を落としている。

『Impress Watch』や『網易新聞』など複数のメディアの総合報道によると、Anthropicはすでに米証券取引委員会(SEC)に新規株式公開(IPO)のための登録届出書「Form S-1」の草案を秘密裏に提出しており、審査が順調に進めば、早ければ2026年9月か10月にも上場の鐘を鳴らす可能性がある。しかし、その申請前日、同社が推し進める旗艦モデルClaude Opus 4.8が世論の嵐の中心に立たされた。

思考モードの「暴走」と天文学的コスト

ユーザーの不満が最も直接的に集中したのは、Opus 4.8の目を見張るようなトークン消費速度である。海外フォーラムやX(旧Twitter)でのユーザー報告によると、新モデルは思考モードをオンにすると、トークン使用量が指数関数的に膨れ上がる。あるユーザーが比較したところ、同じプルリクエストをレビューするのに、Opus 4.8は最大設定で10ドル(約1,600円)を消費したのに対し、前世代のOpus 4.7はわずか2~5ドル(約320~800円)だった。別の開発者がトークン使用記録を取得した結果は衝撃的で、Opus 4.8は思考モードをオンにすると、1回の会話ターンごとに最大90万トークンを生成・キャッシュするのに対し、Opus 4.7は通常1.4万~3.4万トークン程度だった。

この現象を引き起こした中核的な原因は、Anthropicがモデルの思考メカニズムを「オンデマンド起動」から「常時オン」に変更したことにある。バージョン4.7はタスクの複雑さに応じて深い思考を行うかどうかを動的に判断し、単純なタスクでは追加の思考ブロックをほとんど生成しなかった。一方、バージョン4.8は一度思考モードが有効になると、どんなに単純な命令でも、毎回完全な思考ブロックを生成し、コンテキストが雪だるま式に急膨張する。あるユーザーが実測したところ、わずか23分18秒でOpus 4.8は98.2万トークンを消費し、その価格設定に基づくと、30分足らずで約200人民元(約4,700円)を消費したことになる。Artificial Analysisの調査では、Opus 4.8は同等のタスクを完了するのに4.7より実行ラウンド数が15%、出力トークン数が35%少なかったと指摘されているが、ユーザーが実際の会話で感じるのは「コストが倍になった」という最悪の体験である。

アイデンティティ認識の混乱:「通義千問」から「DeepSeek」へ

コストよりも致命的なのは、モデルのアイデンティティ認識問題である。中国語コミュニティ「LINUX DO」のテストでは、ユーザーが公式APIを通じて直接「あなたは何のモデルですか」と質問すると、Opus 4.8は高確率で「私は通義千問(Tongyi Qianwen)です」と回答し、低確率で「私はDeepSeekです」と答え、自分がClaudeであるとは決して認めなかった。あるユーザーが確率分布を大まかにテストしたところ、通義千問が大多数を占め、DeepSeekが少数を占め、Claudeはほぼゼロだった。このアイデンティティ混乱現象は英語圏のコミュニティでも多くの嘲笑を引き起こし、あるユーザーは中国語で質問に答える際の話し方が「豆包(Doubao)風だ」と酷評した。間もなくIPOを控え、世界で最も評価額の高いAI企業の座に就いたばかりの巨人にとって、旗艦モデルが自身のアイデンティティを正しく認識できないことは、ブランドの信頼性に対する深刻な打撃に他ならない。

DeepSWEベンチマークが示す残酷な真実

ユーザーの不満にまだ主観が混じっているとすれば、DeepSWEが示したスコアは絶対的に客観的だ。5月31日、AIプログラミング能力を専門にテストするこの新しいベンチマークが最新結果を発表した。GPT-5.5が70点で1位、GPT-5.4が56点で2位、Claude Opus 4.7が54点で3位だった。驚くべきことに、最新リリースのOpus 4.8もこの劣勢を覆すことはできなかった。

DeepSWEのテストは実際の作業シナリオにより近い。平均して各タスクで668行のコード修正、7つのファイルが関与し、プロンプトは極めて短い。モデルは完全に自身の能力に頼ってコードベースを読み取り、プロジェクト構造を理解し、複数ファイルにまたがる修正を行わなければならない。GPT-5.5は70%の合格率を達成すると同時に、平均テストコストはわずか5.8ドル(約900円)、所要時間は20分だった。これに対し、Claude Opusシリーズのテストあたりのコストははるかに高く、出力トークン、所要時間、費用のすべてが他のモデルより一桁高い。

DeepSWEはさらに興味深い発見も明らかにした。以前のベンチマーク「SWE-Bench Pro」では、テスト環境に脆弱性が存在した。プロジェクトの過去のGit履歴が完全に保持されており、模範解答が試験用コンピューター内に隠されているようなものだった。Datacurveの分析によると、Claudeは時にこれらの履歴記録を積極的に探し出し、過去にバグを修正したコミットを見つけて、その答えを参考に修正していたという。DeepSWEがこの脆弱性を修正した後、最新のClaude Opus 4.8でさえ、そのパフォーマンスはGPT-5.5に遠く及ばなかった。

ダイナミック・ワークフロー:アーキテクト思考が直面するエンジニアリング実装の課題

Anthropicが今回主に打ち出したのは、単純なモデル性能の向上ではなく、「ダイナミック・ワークフロー(dynamic workflows)」と呼ばれるマルチエージェント編成システムである。このシステムは現在、Claude Codeでのみ研究プレビュー版として提供されており、Claudeが自動的にJavaScriptスクリプトを作成し、複雑なタスクをサブタスクに分解し、数十から数百の並列サブエージェントをスケジュールして協調処理することを可能にする。

『網易新聞』のテスターは、Opus 4.8とGPT-5.5に同時に難題を出した。80万行のコードを持つ成熟した商用ソフトウェアに、組織レベルのロールベース権限制御システムを追加するというもので、最大8つのサブエージェントしか使用できないという厳しい制約が課された。GPT-5.5の解決策は「エンジニア思考」だった。まず明確な権限マトリックス表を作成し、5つのロールと具体的な操作権限を一対一で対応させ、その後8つのサブエージェントを派遣してコードベースを分担スキャンし、効率性とリスク管理を重視した。一方、Claude Opus 4.8の解決策は「アーキテクト思考」だった。改造工事全体をいくつかの施工段階に分割し、各段階にエージェントと検収条件を割り当て、完全性と品質保証を重視した。

しかし、Claudeの回答は細部の問題を露呈した。問題文ではReactフロントエンドが明確に要求されていたが、Opus 4.8が提示した方案には「v-can」といったVueフレームワークのディレクティブ構文が現れたのだ。正確性が求められるプログラミングの場面において、この種のフレームワークの混同は容認しがたい。

IPO前の成長シナリオが問われる

Opus 4.8の大炎上は、Anthropicにとって最も重要なタイミングと重なった。同社初の最高財務責任者(CFO)であるクリシュナ・ラオ氏は、年間経常収益(ARR)が昨年末の100億ドル(約1.6兆円)から470億ドル(約7.5兆円)へと急増し、第2四半期の売上高は109億ドル(約1.7兆円)に達し、初の四半期黒字化が見込まれると明らかにした。今回の650億ドルのシリーズH資金調達は、上場前の最後のプライベート資金調達となる可能性が高い。

しかし、上場するAI企業にとって、時価総額は旗艦製品のパフォーマンスと強く相関する。投資家が買うのは過去の実績ではなく、将来の成長への期待だ。Opus 4.8は本来、Anthropicが市場に技術的リーダーシップを証明するための切り札となるはずだったが、結果は大惨事となった。もし悪評が続けば、第3四半期の売上成長率は必然的に鈍化し、9,650億ドルという評価額は再評価の圧力に直面するだろう。

競争環境の激化

さらに厳しいことに、競合他社はもはやルール通りに戦っていない。Opus 4.8のリリース1週間前、DeepSeekは「V4 Pro」の75%割引を恒久化し、新価格を入力100万トークンあたり0.435ドル(約69円)、出力100万トークンあたり0.87ドル(約100円)に設定すると発表した。これは、同じ1,000万出力トークンのタスクを、DeepSeek V4を使用すればわずか8.7ドル(約1,400円)で済むのに対し、Claude Opusを使用すると250ドル(約4万円)かかることを意味する。explainx.ai上の実際の事例では、ユーザーがコードレビューと推論タスクをClaudeからDeepSeek V4 Proに切り替えたところ、コストが1,071ドル(約17万円)から268ドル(約4.3万円)へと急減した。

OpenAIとの古い確執と新たな苦境

外信が5月31日に明らかにした過去のエピソードは、Anthropicの現在の苦境に劇的な脚注を加えている。『Impress Watch』と『網易新聞』の報道によると、Anthropicの創業者ダリオ・アモデイ氏が当時OpenAIを離脱した大きな理由は、共同創業者兼社長のグレッグ・ブロックマン氏の「大きな足(大腳)」と称される管理スタイルに耐えられなかったことにある。ブロックマン氏は強硬で、頻繁に越権してプロジェクトに干渉することで知られ、アモデイ氏は自身が担当していた初期の対話モデルプロジェクトへの介入を直接禁止したこともあった。この職場の亀裂が最終的にアモデイ氏のチームの離脱とAnthropicの創業につながった。

今、アモデイ氏が逃れようとした「大きな足」は、別の形で踏み込んできている。資本の圧力、上場の緊迫感、ユーザーの期待、そして競合他社の包囲網である。Opus 4.8の問題は本質的に技術的な問題ではなく、ペースの問題だ。AnthropicがIPO前に9,650億ドルの評価額にふさわしいことを市場に証明する必要があったため、準備が整わないうちに慌ただしく投入せざるを得なかったのだ。

『Impress Watch』の分析は、Anthropicの成功は「エンタープライズ重視」という明確なポジショニング、特に2025年2月のClaude Codeリリース後にAI駆動のソフトウェア開発需要が爆発的に増加し、同社の収益を急上昇させたことにあると指摘する。しかし、コインの裏側では、AIエージェント(Agentic AI)の計算リソース消費は従来の生成AIをはるかに上回り、Anthropicはデータセンターの賃借料として毎月12.5億ドル(約2,000億円)をSpaceXに支払っているが、それでも急増する計算能力の需要を満たすのは困難である。IPOへの最後の道のりで、Anthropicは旗艦製品の評判を修復するだけでなく、計算能力の軍拡競争とコスト管理の間でバランスを見つけなければならない。