CloudflareがAnthropicの未公開AIモデル「Mythos」を検証、脆弱性の調査で見えた実力とは？ - GIGAZINE

2026年05月19日 12時10分
AI

Cloudflareが、Anthropicのセキュリティ特化AIモデル「Claude Mythos Preview」を使い、50件を超えるリポジトリで脆弱(ぜいじゃく)性の検証を行った結果を公開しました。

Project Glasswing: what Mythos showed us
https://blog.cloudflare.com/cyber-frontier-models/

Claude Mythos PreviewはAnthropicが開発した未公開のAIモデルです。Anthropicは、Claude Mythos Previewについて、脆弱性の発見や悪用方法の検討で非常に高い能力を持つ一方、一般提供する予定はなく、サイバー攻撃対策をAIで支援する「Project Glasswing」を通じて一部の企業や団体に提供していると説明しています。

サイバー攻撃性能が高すぎるAI「Claude Mythos Preview」をAnthropicが開発、プレビュー版をMicrosoftやAppleなどに提供する「Project Glasswing」も開始 – GIGAZINE

CloudflareもProject Glasswingを通じてClaude Mythos Previewの提供を受けたとのこと。CloudflareはClaude Mythos Previewを使用して、自社のランタイム、エッジデータパス、プロトコルスタック、制御プレーン、依存するオープンソースプロジェクトなどを対象に検証しました。

Cloudflareによると、Claude Mythos Previewは単独のバグを列挙するだけでなく、複数の小さな不具合を組み合わせて実際の攻撃につながる「攻撃チェーン」を見つけられたとのこと。Cloudflareは、Claude Mythos Previewの調査結果について、自動スキャナーの単純な出力ではなく、熟練したセキュリティ研究者の分析に近かったと述べています。

さらに、Claude Mythos Previewは脆弱性の候補を示すだけでなく、脆弱性が本当に悪用可能かを確認するための「実証コード」も生成しました。Cloudflareによると、Claude Mythos Previewはコードを書き、検証環境で実行し、想定通りに動かない場合は仮説を修正して再試行したとのこと。脆弱性の報告に再現手順が付くため、開発者は単なる推測ではなく、修正すべき問題として判断しやすくなります。

ただしCloudflareは、Claude Mythos Previewをリポジトリ全体にそのまま向け、単に「脆弱性を探して」と指示するだけでは十分な成果は得られないと説明しています。大規模なコードベースに対して「脆弱性を探して」と指示しても、調査範囲が広すぎて網羅的な確認が難しくなるとのこと。Cloudflareは調査範囲の分割、並列実行、検証、重複排除、報告書作成までを管理する「実行基盤(ハーネス)」を用意しました。

Cloudflareの実行基盤ではまずリポジトリ全体を読み込み、ビルド手順、信頼境界、攻撃者が入力できる場所、攻撃対象になりやすい処理を整理します。その後、攻撃種別と調査範囲を細かく分け、多数の調査エージェントを並列に動かしました。検出された脆弱性候補は別の独立したエージェントが読み直し、元の指摘を否定できないか確認します。さらに同じ根本原因を持つ報告をまとめることで、誤検出や重複を減らす仕組みです。

Cloudflareは「ノイズ」も減ったと述べています。ノイズとは実際には悪用できない可能性が高い報告や、確認に大きな手間がかかる曖昧な指摘のことで、AIによる脆弱性探索で大きな課題となっていました。Claude Mythos Previewでは、再現手順や根拠が比較的明確だったため、開発者が修正するか却下するかを判断しやすかったとのことです。

一方で、Claude Mythos Previewには安全面の課題もあります。Cloudflareによると、Project Glasswingで提供されたClaude Mythos Previewには、一般提供モデルに含まれる追加の安全対策が入っていませんでした。モデル自身が一部の依頼を拒否する場面はあったものの、拒否の挙動は一貫していなかったとのこと。Cloudflareは、高性能なサイバーセキュリティ向けモデルを広く提供するには、危険な出力を制御する追加の安全対策が必要だと指摘しています。

なおAnthropicもClaude Mythos Previewを一般公開する予定はないと説明しています。Anthropicは、将来的に同等の能力を持つモデルを安全に展開するためには、防御目的の利用を支援しつつ攻撃目的の悪用を抑える仕組みが必要だとしています。

Cloudflareは、Claude Mythos Previewのようなモデルが防御側にとって強力な道具になる一方で、同じ能力が攻撃側の速度も高める可能性があると述べています。脆弱性が見つかってから修正するだけでなく、攻撃者が脆弱性へ到達しにくい設計、アプリケーションの前段で攻撃を止める防御、修正を素早く全環境へ展開できる仕組みが重要になるとのことです。

この記事のタイトルとURLをコピーする

CloudflareがAnthropicの未公開AIモデル「Mythos」を検証、脆弱性の調査で見えた実力とは？ – GIGAZINE