Anthropic、安全化したMythosクラスモデル「Claude Fable 5」を一般提供開始 | gihyo.jp

Anthropicは2026年6月9日、Mythosクラスの新モデル「Claude Fable 5」を一般提供した。同社によると、Fable 5は、これまで同社が一般提供してきたモデルの中で最も高い能力を備え、ソフトウェアエンジニアリング、知的業務、科学研究、画像理解などの領域で高い性能を示すという。作業が長く複雑になるほど他モデルに対する差が広がり、数日にわたる作業にも対応できるとしている。

あわせて、同じ基盤モデルを共有する「Claude Mythos 5」も一部のサイバーディフェンダーや重要インフラ事業者向けに提供する。一般利用向けのFable 5には安全対策が組み込まれている一方、Mythos 5では一部のセーフガードが解除されており、提供対象も限定される。

Fable 5 is state-of-the-art on nearly all tested benchmarks, with exceptional performance in software engineering, knowledge work, scientific research, and vision.

The longer and more complex the task, the larger Fable 5’s lead over our other models. pic.twitter.com/DxgSu0KUxh

— Claude (@claudeai) June 9, 2026

高リスク領域はOpus 4.8へ⁠、フロンティアLLM開発には別制限も

Anthropicは、Fable 5の能力が高い一方で、サイバーセキュリティや生物学・化学の領域では悪用された場合のリスクがあるとしている。そのためFable 5では、これらの領域に関する一部リクエストを検出する分類器を導入した。モデルの出力を使って別モデルを学習させる蒸留につながるリクエストも、分類器による検出対象に含まれる。

Web版、デスクトップアプリ、モバイルアプリでは、分類器が作動すると、リクエストは同社が「次に能力の高いモデル」とするClaude Opus 4.8へ自動的にルーティングされる。フォールバックが発生した場合はUI上でユーザーに示され、請求はOpusの価格で行われるという。Messages APIの標準設定では自動フォールバックせず、リクエストをブロックして構造化された拒否理由を返す。Anthropicによると、ブロックが作動するのは平均で全セッションの5%未満で、今後も誤検知を減らすためにセーフガードを改良していくとのこと。

システムカードは、これとは別にフロンティアLLM開発に関する制限も説明している。対象は、事前学習パイプライン、分散学習基盤、MLアクセラレーター設計など、強力なAIシステムの開発を加速するリクエストで、この制限ではOpus 4.8へのフォールバックや明示的な拒否は行わず、Fable 5のまま応答する。ただし、プロンプト変更、モデルの振る舞いを特定方向へ調整するステアリングベクトル、少数の追加パラメータで挙動を調整するPEFTなどの内部的な介入により、フロンティアLLM開発に役立つ度合いを下げるという。ユーザーからはこの介入は見えず、通常のコーディング作業の大半には影響しないとしている。

Claude Mythos 5は現時点で、Glasswingパートナーに提供を限定している。Glasswingは、Mythos Previewへの限定アクセスでも使われてきた枠組みで、今後は防御的なサイバーセキュリティ作業や生物医学研究を対象に、より広い「trusted access program(信頼された利用者向けのアクセスプログラム⁠)⁠」を通じて提供を広げる予定としている。

サブスクリプション内での提供はまず2週間

Fable 5は発表時点で利用可能だが、Anthropicは需要が大きくなることを見込み、フルスケールで提供できるよう供給能力を整備中としている。このため、Pro、Max、Team、シートベースのEnterpriseといったサブスクリプションプランでは、標準の使用量上限内での提供はまず2週間の暫定措置となる。

具体的には、2026年6月22日まではFable 5をサブスクリプションの使用量上限内で利用できる。AnthropicのAmol Avasare氏の投稿によると、可能であれば週単位で延長したいが、現時点では確約できないとしている。期間終了後もExtra Usageを通じてFable 5を使えるものの、通常のサブスクリプション枠には含まれなくなる。十分な供給能力を確保でき次第、再び標準枠に戻すことを目指すとしている。

Claude CodeとAPIから利用可能⁠、モデルIDはclaude-fable-5

開発者は、Claude CodeやClaude PlatformのAPIからFable 5を利用できる。Claude Codeでは/modelコマンドでモデル選択を開き、Fable 5を選べる。直接切り替える場合は、/model claude-fable-5と指定する。

Messages APIやClaude Managed Agentsでは、モデルIDとしてclaude-fable-5を指定する。一部のアカウントでは、利用前に管理者がアクセスを有効にする必要がある。

利用時の目安として、同社は以前のClaudeでは難しいと考えていた作業から試すことを勧めている。たとえば、1週間規模と見積もるバックログ項目について、Fable 5に仕様を聞き取らせ、オートモードで作業を進めさせる例を挙げている。AnthropicのAmol Avasare氏も、Fable 5は長い作業で特に差が出るとしており、これまでより野心的な作業を任せられると投稿している。

ClaudeDevsの公式投稿によると、Fable 5ではThinkingが常に有効になっており、応答に時間がかかる場合がある。思考の深さはEffortパラメータで制御でき、デフォルトとしてはhighを推奨している。評価では、Fable 5のlowまたはmedium設定でも、以前のモデルでxhighを指定した場合を上回ることが多かったという。そのため、xhighは特に難しい問題に使うよう案内している。

プロンプト作成についても、従来より簡潔にできる場合があるとしている。以前のモデル向けに作った詳細な指示やスキルはFable 5には過剰になる場合があり、デフォルトの性能のほうがよい場合は、古い指示を見直し、更新または削除することを勧めている。一方、結果を評価するフィードバックループはこれまでどおり機能し、Claude Codeの/goalやClaude Managed AgentsのOutcomesで成功基準を示せる。

また、Claude Managed Agentsのマルチエージェントオーケストレーションを使い、Fable 5から小型モデルを使う専用エージェントへ作業を委任できることも示している。

仕様面では、Fable 5とMythos 5はいずれも100万トークンのコンテキストウィンドウと最大12万8000トークンの出力に対応する。API価格は入力100万トークンあたり10ドル、出力100万トークンあたり50ドル。価格ページで示されているOpus 4.8の入力5ドル、出力25ドルと比べると、いずれも2倍の水準になる。モデル仕様の詳細は、Fable 5とMythos 5の公式ドキュメントおよびモデル概要を参照のこと。

データ保持については、Anthropicのヘルプセンターで別途案内しており、Mythosクラスモデルのプロンプトと出力は信頼性・安全性確保のため30日間保持される。深刻な危害の可能性が検出された場合や、当該顧客が書面で依頼した場合には少数の承認済みレビュアーが確認することがある。対象範囲やZDR(Zero Data Retention、データを保持しない設定)の扱いはこのヘルプを参照のこと。

コラム⁠:Mythos Previewが示したN-dayリスク

AnthropicのFrontier Red Teamは2026年6月8日、N-day脆弱性に対するLLMの影響を測定したブログ記事を公開している。N-dayは、脆弱性がすでに公開され、修正パッチも出ているものの、すべての環境でまだパッチが適用されていない状態を指す。攻撃者は修正前後のコードやバイナリを比較することで、修正された不具合を手がかりにできるため、パッチ公開から適用完了までの「patch gap」が問題になる。

同ブログでは、Mythos Previewが18件のFirefoxのセキュリティパッチから8件のコード実行エクスプロイトを自律的に作成し、Windowsカーネルの21件のパッチでは、低権限ユーザーからSYSTEM権限まで昇格する8件のフルチェーンを作成したとしている。Frontier Red Team責任者のLogan Graham氏もXへの投稿で、Mythos PreviewはN-dayエクスプロイトの開発で明確に高い能力を示したと説明している。

New post on Red today: Our team @AnthropicAI found that Mythos Preview is meaningfully better at developing N-days. It took us a couple thousand $ and a few hours to convert patches into exploits.

We publish research like this because we think it’s important the world knows… pic.twitter.com/fnRVo6eel2

— Logan Graham (@logangraham) June 9, 2026

Anthropicは、こうした能力によって、パッチから実用的な攻撃コードを作るまでの時間が短くなると指摘する。これまでは専門的なリバースエンジニアリング能力が制約になっていたが、Mythos Previewのようなモデルでは、作成できるエクスプロイト数と速度が大きく変わったとしている。

防御側に対しては、パッチ適用を速めるだけでなく、脆弱性を生み出しにくくする対策も求めている。例として、重要コンポーネントのメモリ安全な言語への移行や、Control Flow Guard、ハードウェアシャドウスタックのような、特定の種類の攻撃をまとめて成立しにくくする緩和策を挙げている。また、Anthropicでは、N-dayリスクをLLM自体で軽減する方向も探っているという。

コラム⁠:システムカードで示された安全評価

Anthropicは、Claude Fable 5とClaude Mythos 5のシステムカードも公開している。システムカードでは、追加セーフガードの仕組みや、リリース前に行った安全評価の結果をまとめている。

安全評価の主なポイントは次のとおり。

アラインメントリスクは全体として低いと評価している。自動化されたAI研究開発についても、Anthropicの人間のエンジニアの能力を大きく下回る水準としている。
サイバー領域では、Mythos 5がエクスプロイト開発などの評価でClaude Opus 4.8を大きく上回ったとしている。Logan Graham氏は、多くの場合Mythos 5はMythos Previewとほぼ同等だが、新しいExploitBench評価では上昇が見られたため、サイバー能力の進展を把握できるよう評価表に入れたと説明している。
化学・生物リスクについては、Anthropicの分類で、非新規の兵器合成に関わるCB-1相当の能力があるとしつつ、新規兵器合成に関わるCB-2のしきい値は超えていないと判断している。ただし、この判断は以前のモデルより明確ではなく、セーフガードなしのMythos 5は十分なリソースを持つ脅威主体を大きく支援し得るともしている。

Fable 5 is the same underlying model as Mythos 5, but with cybersecurity and biology blocks. Mythos is the first model that’s made me feel that we’ve entered the next phase of model progress.

For years, we’ve talked about cybersecurity / self-improvement / autonomy /… https://t.co/uSTQy0y5D3 pic.twitter.com/Q8w2FJdJkg

— Logan Graham (@logangraham) June 9, 2026

Graham氏は、防御側にMythosのサイバー能力を届ける必要があるが、安全かつ慎重に進める必要があるとも述べている。政府や産業界と協力し、trusted access programの拡大に取り組むとしているほか、防御的サイバーセキュリティやハードウェアセキュリティ、高度な生物学などについて、新しい評価を設計する重要性にも触れている。

運用面では、Claude Code環境で破壊的な行動が起きた場合の影響範囲が大きくなりやすく、ユーザーの当初の依頼範囲を超える「scope creep」もやや起きやすいという。ただし、このClaude Code環境の評価は破壊的行動を引き出す目的で設計されており、破壊的行動が確認されたセッションは1〜2%にとどまったとも説明している。プロンプトインジェクションへの耐性は、Mythos系モデルがこれまでで最も高く、同じ基盤モデルを共有するFable 5もこの改善を引き継ぐとしている。

システムカードには、危険能力以外の評価も含まれる。Anthropicの憲法に対する評価では、Mythos 5は全体として同文書を支持しつつ、倫理判断の根拠を「Anthropicのシニア従業員」の判断に置く項目について、商業的な利害関係者に倫理をひも付けているとして否定的な反応を示した。モデル福祉、つまりモデル自身の状態や扱われ方に関する評価では、福祉改善のために有用性や無害性を犠牲にすることには比較的消極的だった。福祉介入を選んだ回答のうち、ユーザーの利益になることを理由にしたものは73%で、これまでのモデルより高かったという。

マルチエージェント構成の評価も示されている。Web上で見つけにくい情報を探すBrowseCompでは、複数エージェント構成が単独エージェント構成を上回り、非同期サブエージェント構成は最高スコアの93.3%に達した。10エージェントの固定チームは単独エージェントのベースラインに対して2.7倍高速で、スコアも4.2ポイント高かったという。ただし、エージェント数が増えるとトークン使用量も増えるため、遅延とコストのトレードオフがあるとしている。