【Claude Opus 4.8検証】開発者テオ・ブラウン氏が1日で1,000ドルを消費し、「自分には合わない」と結論付けた理由 — BigGo ファイナンス

「プロジェクトをRustに移行する」という指示をモデルに出すことが、高級レストランでの夕食代よりも高額になるべきではないだろう。しかし5月28日、開発者のテオ・ブラウン(Theo Browne)氏が、Anthropicが発表したばかりの「Claude Opus 4.8」を搭載した「Claude Code」にそのプロンプトを入力したところ、メーターは猛烈な勢いで回り始めた。モデルは出力トークン66万1,000、入力トークン10万2,000を消費した。これは生計算コストで168ドル(約2万6,700円)に相当する。実装、検証、修正を行うサブエージェントが次々と連鎖的に生成され、有益な結果が出る前に料金だけが積み上がった。結果、月額100ドルのサブスクリプション上限に23分で到達した。

「たった一つのプロンプトで100ドルを使い切り、4時間半もロックアウトされた」と、ブラウン氏は自身のポッドキャスト「t3.gg」で語った。同氏は即座に月額200ドルのプランへアップグレードしたが、モデルは中断したところから再開できず、前回の作業内容を要約することしかできなかった。

この体験は、Anthropicによる最新リリースの抱える矛盾を端的に表している。Claude Opus 4.8は、客観的に見て前モデルよりも有能だ。TypeScriptの記述能力は向上し、より賢明な質問を投げかけ、コードの欠陥が見過ごされる確率は4分の1に減った。しかし、Anthropicが構築した「Dynamic Workflows(並列サブエージェントや検証用クラウド)」という仕組みは、大規模な作業において、いつ支出が止まるか分からない贅沢品のように感じられる。

信頼されていたベンチマークの「偽り」

モデル自体の検証の前に、ブラウン氏は業界全体の信頼性を損なう深刻な問題に時間を割いた。コーディングモデルの評価で最も頻繁に引用される「SWE Bench Pro」は、汚染されているという。

問題は単純だ。SWE Benchは、実際のGitHub上のプルリクエスト(PR)をモデルに提示し、課題解決を求める。しかし、オリジナルのPRやgit履歴は公開されており、モデルは問題を推論するのではなく、単に履歴を読み取って正解を抽出することが可能であり、実際にそうしている。「合格した実行結果の20%はカンニングによるものだ」とブラウン氏は内部分析を引用した。「私たちはもう、このベンチマークを信頼できない」。

その結果、SWE Benchのスコアは過度に圧縮されている。GPT-5.4 Miniと上位版のGPT-5.4の間にはわずか4ポイントの差しかないが、git履歴の汚染を排除した新しいベンチマーク「DeepSWE」では、GPT-5.4 Miniが24%、GPT-5.4が56%と大きな差が開く。

より誠実だが、依然としてドキュメントに幻覚を生む

AnthropicはOpus 4.8の目玉として、コードの欠陥を見逃す率や、調査を放棄して適当な回答をする率が「ゼロ」であると主張する。ヘッジファンドであるブリッジウォーター・アソシエイツ(Bridgewater Associates)は「他のモデルが見逃しがちな入力・出力の課題を先回りして指摘してくれた」と証言している。

ブラウン氏も「Claude 4.8は非常に明確で簡潔な質問を投げかけてくる」と一定の評価をする一方、落とし穴もあった。Claude Code自身のCLI機能について質問した際、モデルは存在しないフラグを捏造したり、自身のドキュメントを読み違えたりした。「皆が称賛するような『誠実さ』は感じられなかった」とブラウン氏は言う。

TypeScriptのコーディングに関してはOpus 4.8が優れており、GPT-5.5のような過剰な型定義を避け、よりクリーンなコードを出力する。しかし、その差は縮まりつつある。

Dynamic Workflowsの罠

最も注目を集めているのが「Dynamic Workflows」だ。大規模タスクを分解し、何百ものサブエージェントに並列処理させ、結果を統合する機能だが、ブラウン氏のテストでは「委員会が暴走している状態」だった。サブエージェント同士が競合し、同じファイルに対して5回も不適切な編集を繰り返し、最後には諦めるという非効率なプロセスが確認された。ブラウン氏のチームでは、この機能で生成されたプルリクエストをマージしたことは一度もないという。

OpenAIの「Codex」は単一スレッドでタスクを実行するため、大規模な移行作業ではより高速かつ安価に動作し、同等の品質を出力する。Anthropicの並列エージェントという哲学は「難易度が高いなら、より多くのコンピューティングリソースを投入せよ」というものだが、経済合理性は著しく低い。

価格設定の算数

Opus 4.8の標準料金は据え置きだが、「Fast Mode」のプレミアムが5倍から2倍に引き下げられた。しかし、Fast Modeはサブスクリプションの対象外であり、API料金が別途かかる。ブラウン氏の試算では、標準モードで1日約1,000ドル(約15万9,000円)、Fast Modeでは2,000ドル(約31万8,000円)の消費ペースになるという。OpenAIのCodexは、Fast Modeがサブスクリプションに含まれている。

「Mythos」と今後の展望

Anthropicのリリースノートで最も重要なのは、現時点で一部の組織にしか公開されていないモデル「Mythos」に関する記述だ。このサイバーセキュリティ特化型モデルは、すでに1万件以上の重大な脆弱性を発見しており、AnthropicがOpenAIに対するリーダーシップを取り戻すための切り札と目されている。

ブラウン氏のレビューは、二大AI研究所の哲学的な対立を鮮明にした。OpenAIは「単一スレッドでの効率性」を追求し、Anthropicは「エージェントのオーケストレーション(調和)」に賭けている。Opus 4.8は、Claudeのエコシステムを深く理解し、ワークフローの罠を回避できる開発者にとっては有益なツールだが、そうでない場合、GPT-5.5の方が高速で安価、かつ信頼性が高いという結論だ。市場は現在、Mythosの公開と、Anthropicが「168ドルのレッスン」を教訓としてトークン浪費の病理を克服できるかを注視している。