Anthropic、“強力すぎて公開できない”AIモデル「Mythos Preview」を発表：数十年放置されたバグや数千件のゼロデイ脆弱性を既に発見

AIが27年前のOSバグを発見し、16年前に埋もれていた脆弱性を掘り起こす。Anthropicが2026年4月7日に発表したClaude Mythos Previewは、そのサイバーセキュリティ能力が突出しすぎているがゆえに、一般公開を断念せざるを得ない逆説的な状況を生み出した。しかし脅威はすでに現実化している。中国国家支援グループがClaude Codeを使い約30の組織への侵入を試みたとの報告があり、ロシア語話者の攻撃者が55か国以上・600台超のデバイスに侵入したとされる。強力なAIを「守りに使う」ためだけに存在させるという試みは、そもそも可能なのか。Anthropicが採用した「限定公開＋コンソーシアム」モデルは、その問いへの現時点における最良の回答だ。

// 目次

Mythosが示した前例のない能力
すでに始まっている悪用：汎用モデルが武器に変わる現実
Project Glasswingの構造：「限定公開」を機能させる仕組み
業界標準への示唆：強力なAIをどう展開するかという問い

Mythosが示した前例のない能力

Claude Mythos Previewの能力を端的に示す数字がある。Anthropicが公表するベンチマーク結果では、CyberGym脆弱性再現タスクで83.1%のスコアを記録しており、比較対象のClaude Opus 4.6の66.6%を大きく引き離す。SWE-bench検証でも77.8%対53.4%、Terminal-Bench 2.0でも94.6%対91.3%と、いずれの指標で前世代モデルを上回る。これらはAnthropicの自社測定値であり独立した検証はないが、全ての指標で前世代を大幅に上回っている点は一致している。

能力の質的な差異はベンチマーク以上に重要だ。Mythosは特定のOSの脆弱性を自律的に連鎖させて権限昇格を実現するという、従来は熟練したセキュリティ研究者が手動で行っていた複雑な攻撃手順を自動化できる。OpenBSDに存在した27年前のバグ、FFmpegに潜んでいた16年前の脆弱性の発見はその実例だ。これらは数十年にわたって専門家の目をかいくぐってきた問題であり、静的解析ツールや従来のファジングでは検出されなかった。Anthropicによると、Mythosは数週間で「数千件のゼロデイ脆弱性」を特定したという。

なぜこれほどの能力差が生まれたのか。汎用LLMはコードの意味を理解するが、脆弱性の文脈——どのコードパスがどの条件下でどう悪用されるか——を体系的に推論する訓練は受けていない。Mythosは明らかにこの推論能力に特化した訓練を受けている。開発コード名「Capybara」として2026年3月下旬にFortune誌の報道でその存在がリークされ、Anthropicが認めたという経緯も、この特化性が社内でも慎重に扱われていたことをうかがわせる。AnthropicのFrontier Red Team Cyber LeadであるNewton Cheng氏は「サイバーセキュリティ能力を理由に、Claude Mythos Previewを一般公開する計画はない」と明言している。

すでに始まっている悪用：汎用モデルが武器に変わる現実

Mythosが一般公開を避けた理由は、汎用AIモデルの悪用がすでに現実の問題として記録されていることにある。中国国家支援グループがClaude Codeを使い、テック企業・金融機関・政府機関を含む約30の組織への侵入を試みたとの報告がある。また、ロシア語話者の攻撃者が複数のAIツールを組み合わせて55か国以上で600台超のデバイスへの侵入に成功したとされる。いずれも帰属の断定には慎重を要するが、AIが攻撃インフラの一部に組み込まれつつある状況は複数の独立した報告で共通している。

これらの事例で使われたモデルはMythosではなく、Claude CodeやGPT-4に代表される汎用ツールだ。攻撃者はフィッシングメールの生成から初歩的なエクスプロイトコードの作成まで、特化型モデルなしに汎用LLMで実現できることを示した。この現実が意味するのは、Mythosのような特化モデルが悪意ある組織の手に渡った場合の被害規模が、汎用モデルとは次元の異なるものになるという推論の妥当性だ。Mythosの一般公開断念は、このリスク差分に対する判断である。

デュアルユース問題の本質的な難しさはここにある。攻撃と防御は同一の技術基盤に立脚し、脆弱性を発見する能力は修正する側にも悪用する側にも等しく有用だ。Anthropicが解決しようとしているのは「能力の非対称性」、つまり防御側が技術にアクセスし、攻撃側がアクセスできない状態を作るという、従来のサイバーセキュリティが解決できなかった構造的課題だ。Anthropicの発表文の中でCEO Dario Amodei氏は「間違えた場合の危険は明白だが、正しく行えば真の機会がある」と述べており、リスクを認識した上での前進という姿勢を示している。

Project Glasswingの構造：「限定公開」を機能させる仕組み

Anthropicが採用したモデルはProject Glasswingと名付けられたコンソーシアム方式だ。AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorgan Chase、Linux Foundation、Microsoft、NVIDIAを含む12社のコアパートナーが参加し、さらに40以上の組織がMythos Previewへの広いアクセスを得る。Anthropicは1億ドル相当のMythos Preview使用クレジットをコミットし、Linux Foundation経由でAlpha-OmegaとOpenSSFに250万ドル、Apache Software Foundationに150万ドルを寄付している。資金投入の規模は、広報施策ではなく重要インフラへの本格的なコミットメントであることを示す。

なぜこの顔ぶれなのか。コアパートナーの選定には明確な意図がある。AWS・Google・Microsoftはクラウドインフラを運営しており、脆弱性の影響範囲が最大規模になる事業者だ。CiscoとCrowdStrikeはエンドポイントからネットワークまでをカバーするセキュリティ企業であり、発見された脆弱性を実際のプロダクトに反映できる立場にある。NVIDIAとBroadcomはシリコンレベルのサプライチェーンに関与し、Linux FoundationはオープンソースエコシステムのパッチとCVE管理を担う。JPMorgan Chaseの参加は金融セクターの重要インフラ保護という実用的必要性を示す。構成は恣意的ではなく、脆弱性の発見から修正・展開までのバリューチェーン全体をカバーするよう設計されている。

限定公開モデルの実効性は、参加組織が実際にパッチを適用するまでの時間に依存する。コンソーシアム内での情報共有は通常の研究開示（Responsible Disclosure）より迅速になる可能性がある一方、参加組織が競合する場合の利益相反や、40以上の組織への拡大アクセスがどこまでコントロールされているかという疑問も残る。AnthropicはCISA（サイバーセキュリティ・インフラストラクチャセキュリティ庁）を含む米国政府機関との協議を継続中であり、アクセス管理のフレームワーク策定に政府が関与する構造が形成されつつある。

業界標準への示唆：強力なAIをどう展開するかという問い

YouTube video

Project Glasswingが提示しているのは、特定のモデルの展開方法だけではない。強力な特化型AIを社会に組み込む際の枠組みをどう設計するか、という問いへの一つの回答だ。「一般公開しない」という選択は過去にも存在したが、単なる研究発表や秘密保持とは異なる。Mythosの場合、能力は確かに存在し、使われている。ただし使用者が制限され、Anthropicが監視できる形での運用に限定されている。

この構造は核不拡散体制に近い発想だが、決定的に異なる。AIモデルはコードであり、一度漏洩すれば複製コストはゼロだ。コンソーシアムに参加する40以上の組織すべてが完璧な情報管理を維持できるかは、楽観的に見ても不確かだ。Fortune誌への事前リークが示したように、Anthropic自身も情報管理において完全ではない。「限定公開」モデルの最大のリスクは、限定の境界が保たれない可能性にある。

それでも、Glasswingが業界標準の候補になり得る根拠がある。「公開か非公開か」という二項対立では、防御側が技術の恩恵を受けられないか、攻撃側にも技術が渡るかのどちらかしかない。コンソーシアム方式はその中間の空間を制度化しようとする試みだ。このモデルの実効性を測る最初の試金石は、発見された脆弱性が実際にパッチとして展開されるスピードだ。CISAとの協議が規制的な承認に向かうなら、次世代の強力なAIモデルの展開判断においてGlasswingは避けて通れない参照事例になる。

Sources

Anthropic、“強力すぎて公開できない”AIモデル「Mythos Preview」を発表：数十年放置されたバグや数千件のゼロデイ脆弱性を既に発見 | XenoSpectrum