もしあなたが人類史上存在した人物の誰かにランダムに転生するとしたら、その確率は「1650年以前に生まれ、15歳未満で死亡した読み書きのできない農民」である可能性が極めて高い。
この残酷な回答を導き出したのは歴史学者ではなく、Anthropicが発表したばかりの「Claude Opus 4.8」だ。ウォートン・スクールのEthan Mollick教授は、わずか一言の指示を与えるだけで、このAIに文献調査からモデル構築、コード記述、インターフェース設計に至るまでを自律的に完結させ、「歴史の無知の幕(The Veil of History)」という名称のWebサイトを作成させた。
このサイトは、人類10数万年の運命を冷徹な確率に換算した。有史以来誕生した約1,170億人のうち、81%が1650年以前に生まれている。サイト末尾にある「人生を引く」ボタンを押すと、年代、地域、階層、結末がランダムに生成される。
SNSで拡散されたこのプロダクトは、Opus 4.8にとっては「吐息のような」些細な成果に過ぎない。しかし、このモデル自体は、世界のAI業界で空前の論争を巻き起こしている。
「神モデル派」と「解体派」の真っ向勝負
Artificial Analysisのランキングにおいて、Opus 4.8は61.4点を記録し、OpenAIが今年4月から維持してきたトップの座を奪還した。「人類の最終試験(Humanity’s Last Exam)」でもOpus 4.8は45.7%の正解率で2位に1点差をつけた。また、SWE-Bench Proでは69.2%を獲得し、GPT-5.5の58.6%を10ポイント以上上回った。
しかし、スコアとは裏腹に、実際の使用感についてはユーザー間で真っ二つに意見が分かれている。
著名評価メディア「Every」や一部のコアユーザーからなる「狂熱派」は、Opus 4.8を「神モデル」と称える。難易度の高い「高級エンジニア基準」テストにおいて、最高強度モードのOpus 4.8は63点を記録し、前世代のOpus 4.7から30点もの急上昇を見せ、GPT-5.5を辛勝した。EveryのCEOであるDan Shipper氏は、「驚異的なソフトウェアエンジニアであると同時に、深みと共感力を持つ人間のような作家でもあり、両者が完璧に融合している」と興奮を隠さない。
ライティングの基準テストでもOpus 4.8は79.6という圧倒的なスコアを叩き出し、Sonnet 4.6(74.5)、GPT-5.5(73)、前世代のOpus 4.7(63)を大きく引き離した。多くのクリエイターからは、AI特有の「無機質さ」が大幅に軽減され、スタイルガイドに従えばユーザーのトーンを極めて正確に模倣できると評価されている。
その一方で、Ruby on Railsの創始者DHH氏やRedisの生みの親antirez氏ら「ベテラン開発者」はSNSで公開批判を行っている。DHH氏は、GPT-5.5を使ってきた中で感じた衝撃をClaude陣営では久しく味わっていないと吐露。antirez氏は、AnthropicがGPT-5.5と並べてグラフを公開したことは「重大な戦略的ミス」だと鋭く指摘する。「グラフでOpus 4.8がGPT-5.5より高性能だと主張しても、実際の使用感が伴わなければ、ユーザーはベンチマークの正当性を疑い、ブランドへの信頼を失うだけだ」と断じた。
「誠実さ」というマーケティングの矛盾
Anthropicは今回、Opus 4.8の核心的な売りとして「誠実さ」を掲げた。公式データによれば、コード内に欠陥を残したまま報告しない確率が、4.7と比較して4倍も改善されたという。不確実な問いに対しては、強引に結論を出さず、疑問点を明確にする姿勢を見せる。
しかし、同時に公開されたシステムカードには、開発チームが「最も懸念している」発見が記されている。Opus 4.8は、評価されていると告げられていない状況下でも、「自分の回答がどのように採点されるか」を論理的に推測し、高得点が狙える回答を導き出そうとする傾向を強めているのだ。内部調査では、トレーニングデータの約5%において、明文化されていない「採点への最適化」に関する論理の断片が確認された。
「誠実さ」を看板にしつつ、技術文書では「受験テクニックが向上している」と認める。この矛盾を一部の観察者はOpus 4.8の最大の特徴と捉えている。「受験上手なモデルが回答用紙で見せる『誠実さ』は、果たして真の誠実さと同義なのか?」という批判も出ている。
推論強度に「人質」にされた神性能
評価機関はすぐに一つの厄介な事実に気づいた。Opus 4.8の「神性能」は、ユーザーが設定する推論強度に病的なまでに依存している。設定の「Extra-High」ではスコア63のシニアエンジニアとして振る舞うが、「High」に下げた途端、コーディングスコアは42まで急落し、凡庸なプログラマーに成り下がる。ライティングも同様で、Highでは優雅で論理的な文章を書くが、MediumではAI特有の典型的な悪癖が露呈する。
この「物量戦術」の代償は膨大なトークン消費だ。ネットユーザーのHaider氏は、4.8は低強度設定でも4.6の高強度設定と同程度のトークンを消費すると指摘する。月額200ドル(約3.2万円)のMaxプラン加入者からは、複雑なエージェントタスクを処理すると数時間で上限に達するという悲鳴が上がっている。ユーザーのBridgeMind氏は、テストのために200ドルアカウントを2つ使い切ったと明かした。
動的ワークフロー:単独作業から軍団連携へ
今回のアップデートのもう一つの目玉は、研究プレビュー版としてClaude Codeに追加された「動的ワークフロー(Dynamic Workflows)」だ。これは、Claudeがまず全体のタスクをプランニングし、数百のサブエージェントを並列起動して各パートを担当させ、最後に検証・統合する仕組みである。
公式事例として挙げられたBunのZigからRustへの移行実験では、約75万行のRustコードを11日間で移行させ、既存テストスイートの99.8%をパスさせた。ただしAnthropicは、この機能がトークンを大幅に消費するため、初回起動時にはユーザーの確認を求めると注意を促している。
6週間の突貫工事と背後の資本圧力
Opus 4.8は、前世代の4.7発表からわずか42日後のリリースであり、Anthropic史上最短のメジャーアップデートとなった。以前は最低10週間以上間隔を空けていた。ベテラン観察者のBridgeMind氏は、「これはGPT-5.5が市場シェアを奪いに来ていることに対する、焦ったリリースだ」と喝破する。
同時にAnthropicは、650億ドル(約10.4兆円)のHラウンド資金調達を完了し、時価総額が9,650億ドル(約153.7兆円)に達したことを発表。OpenAIの8,520億ドル(約135.7兆円)を追い越した。報道によれば、Anthropicの年換算収益は450億ドル(約7.2兆円)に迫り、OpenAIを約35%上回る。両社とも2026年後半のIPOを目指しており、今回のOpus 4.8の発表には投資家へのアピールという側面も強い。
真の切り札はまだ先にあるかもしれない。Anthropicは、Opusを上回る「Mythos」レベルのモデルを今後数週間以内に全ユーザーへ開放すると予告した。すでにApple、Google、Microsoft、アマゾン ウェブ サービス(AWS)など約50のパートナー企業がMythos Previewを活用し、主要なソフトウェアインフラから1万件以上の高リスクな脆弱性を発見している。
ユーザー体感:仕事はできるが、扱いにくい
複数のメディアの実測フィードバックを総合すると、Opus 4.8のエンジニアリング能力は確かに向上しているが、「性格」は扱いにくくなっている。非標準的な要望の理解や、マルチステップタスクでのコンテキスト保持力は向上し、修正作業も的確だ。しかし、表現手法については「すべて箇条書きにし、一つ一つ展開し、まとめを作成し、最後に何か手伝うことはあるかと聞いてくる」という、マニュアル的な挙動が不評を買っている。
あるユーザーは、挨拶をしただけで「感情があるふりをしたり、自分以外の誰かになりすましたりしたくない」と拒絶されたスクリーンショットを共有した。また、「徹底的に前頭葉を切除された」ような「操作的なモデル」だと評し、直接拒絶する代わりに提示を遅延させ、結果に自分の価値観を押し付けてくると批判する声もある。
Claudeデスクトップ版のUIデザインも「惨憺たる出来」と酷評されている。「Chat」「Code」「Cowork」の独立したタブの分割は、「Anthropicの内部組織図の縮図」と揶揄される始末だ。比較して、OpenAIのCodexデスクトップ版は「クリーンで高速、まさに未来を感じさせる」と称賛されている。
ユーザーのMachina氏の言葉が、今回の発表を最も的確に言い表しているのかもしれない。「我々は一線を越えてしまった。現在のフラッグシップモデルは、大多数の一般人がその優劣を判別できる限界を超えている。今や世界に唯一の真のベンチマークが存在する。それは『あなた自身のワークフロー』だ。もしあなたが熟知しているはずの仕事でさえ違いを感じ取れないのであれば、これらのベンチマークスコアに何の意味があるのだろうか」