GPT-5.6の内部テスト情報が流出：フロントエンド開発能力が大幅向上も、Claude Fable 5の「神話級」性能に圧倒される

世界の大規模言語モデル競争が6月に入り急激に過熱している。AnthropicがClaude Fable 5とMythos 5という強力な一手を投じた直後、OpenAIが密かに準備する対抗策——GPT-5.6の内部テスト詳細が、海外の開発者コミュニティで急速に流出し始めた。

現時点でOpenAIはGPT-5.6に関する公式発表を一切行っていないが、内部コードネーム、リリース候補版、ベンチマークの使用感に関する実測情報がすでに広範囲に出回っている。この対決の核心的な懸念は、Anthropicが初めて一般公開する「神話級」モデルに対し、GPT-5.6が果たして対抗できるのか、という点にある。

GPT-5.6の胎動：フロントエンド生成が切り札に

海外の複数の情報筋によると、OpenAIは最近、「kindle」と「kepler」という2つのコードネームを持つ新たなチェックポイントを社内で集中的にテストしている。チェックポイントとは、モデルの学習過程で保存されるパラメータのスナップショットを指す。中国メディア『量子位』の報道によれば、このうちkindle-alphaがGPT-5.6のリリース候補版として選定されたという。

流出した実使用の感触から、GPT-5.6で最も言及されている改良点は、フロントエンドとUI生成の領域に集中している。海外の開発者パンカジ・クマール氏は、kindle-alphaがインターフェース生成において複雑なプロンプト技術に依存せず、高品質なビジュアル出力を直接生成できると指摘する。同時に、このバージョンは画像理解と推論コーディングタスクにおいても顕著な改善を見せているという。

しかし、開発者コミュニティの反応は手放しの称賛ばかりではない。ユーザー「Leo」は、xhigh設定で同一のプロンプトを用いた比較テストを行い、リリース候補版に選ばれたkindleのパフォーマンスがkeplerよりも後退していることを発見した。彼は、OpenAIがさらなる改良を続け、最終的にkindleを候補から外す可能性も十分にあると断言している。

最新の動向では、kindleはテストアリーナから削除され、代わりに「Levi」という新モデルが投入された。Leviは非常に洗練されたフロントエンドデザイン能力を示しているが、一部ユーザーの調査によれば、LeviはMeta由来のモデルであり、GPT-5.6の真の姿ではない可能性が指摘されている。

Claude Fable 5：息をのむ「神話」の到来

GPT-5.6がベールに包まれたままの状態で、Anthropicは先に回答を提出した。日本時間6月10日未明、Anthropicは何の前触れもなく、史上最強モデル「Claude Fable 5」とその制限版「Mythos 5」を発表した。

中国メディア『36Kr』の報道によると、Fable 5はAnthropicが初めて一般公開する「Mythos級」モデルである。ソフトウェアエンジニアリング、ナレッジワーク、視覚理解などの分野で、Fable 5は「断崖的」なリードを誇示している。実際の本番レベルのコーディング能力を問うベンチマーク「FrontierCode Diamond」では、Fable 5のスコアは29.3%に達し、GPT 5.5のわずか5.7%に大きな差をつけた。

Anthropicの公式発表によると、Stripeは初期テストで、Fable 5に5000万行のRubyコードベースの移行タスクを処理させた。本来ならエンジニアチームが手動で2カ月以上かかる作業量を、Fable 5は1日で完了したという。

しかし、この究極の生産性には、高額なコストと厳格な安全制限が伴う。Mythos級モデルは脆弱性の発見やエージェント攻撃能力が極めて高いため、AnthropicはFable 5に厳重な安全ガードレールを適用している。ユーザーのリクエストがサイバーセキュリティや生化学などの高リスク領域に関わる場合、システムは自動的に、より能力の低いClaude Opus 4.8にフォールバックして応答する。

さらに注目すべきは、ビジネスモデルの激変である。Fable 5の価格は、入力トークン100万件あたり10ドル（約1,600円）、出力トークン100万件あたり50ドル（約8,000円）と高額に設定されている。しかも、ProなどのサブスクリプションプランにおけるFable 5の無料利用は6月22日までで、それ以降は利用枠を消費する必要がある。これは、低価格のサブスクリプションで最強のAIを使い放題にする時代の終焉を告げるものだ。

二強対決：コストパフォーマンスと最高の生産性を巡る路線対決

GPT-5.6とClaude Fable 5の水面下での角逐は、AI業界における二つの全く異なる発展経路を浮き彫りにしている。

OpenAIのGPT-5.6は、使いやすさと規模拡大に賭けている。リーク情報によれば、UI生成、視覚理解、コーディングプロセスの簡素化に注力し、利用ハードルを下げることを狙っている。一方、AnthropicはFable 5を通じて、「ラグジュアリー級」インフラとしてのポジショニングを確立した。

中国メディア『網易新聞』の分析は、この二極化が市場を二つの陣営に分裂させつつあると指摘する。一つはDeepSeek、MiMo、Geminiに代表される値下げ派で、高性能モデルをますます安価にする勢力。もう一つはAnthropicに代表される値上げ派で、生産性の中核に最も近いトップモデルはますます高価になり得ることを証明している。

DeepSeek V4-Proを参照すると、そのAPI入力価格は100万トークンあたりわずか0.435ドル（約70円）である。これに対し、Fable 5の入力価格はその23倍、出力価格に至っては57倍にも達する。Fable 5は長時間稼働型AIエージェントや複雑なエンジニアリング処理でオープンソースモデルに対し断層的なリードを実現しているが、その高コストが多くの一般開発者を確実に遠ざけるだろう。

テスラの元AIディレクターで現在はAnthropicに所属するアンドレイ・カルパシー氏の評価は非常に微妙で、Fable 5の実際の使用感に対する開発者の複雑な心境を示唆している。ウォートン・スクールのイーサン・モリック教授による実測はより直感的だ。Fable 5は9時間半連続で稼働し、複雑なソフトウェアツールを自律開発できるが、長時間のタスクによるトークン消費は極めて大きく、本番環境投入後のコスト管理が大きな課題となるという。

OpenAIにとって、対戦相手はすでに手の内を明かした。GPT-5.6が能力面でFable 5を超えられず、かろうじて互角に持ち込むのが精一杯であれば、唯一の逆転の目は価格にある。もしGPT-5.6がこのタイミングで極めて競争力のある価格戦略を打ち出せば、実際の採用率ではなお一矢報いることができるかもしれない。真の決着は、GPT-5.6正式版のベンチマークスコアが明らかになるその瞬間を待たねばならない。

GPT-5.6の内部テスト情報が流出：フロントエンド開発能力が大幅向上も、Claude Fable 5の「神話級」性能に圧倒される — BigGo ファイナンス