4月14日(米国時間)、OpenAIはサイバーセキュリティ戦略の次の段階と、セキュリティ対策を担う専門家向けに特別に設計された新モデル「GPT-5.4-Cyber」を発表した。
OpenAIの発表は、Anthropicが新モデル「Claude Mythos Preview」を発表して間もないタイミングで行なわれた。同モデルはハッカーや悪意ある主体に悪用される可能性があるとして、当面はグーグルなどの競合も含む一部企業に限定して提供されるという。Anthropicはまた、これらの企業を含むかたちで、生成AIがサイバーセキュリティに与える影響を検証する業界横断の取り組みである「Project Glasswing」を立ち上げている。
OpenAIは過度に危機感をあおる姿勢は取らず、既存のガードレールや防御策の有効性を強調しているが、長期的にはより高度な保護が必要になる可能性にも言及している。ブログ投稿でOpenAIは「現在使用されているセーフガードのクラスは、サイバーリスクを十分に低減し、現行モデルの広範な展開を支えるのに足ると考えています」と述べ、次のように続けている。
「現在のセーフガードは、今後登場するより高性能なモデルに対しても有効であり続けると見込んでいます。一方で、サイバーセキュリティ用途に特化して訓練され、より広い操作を許容するモデルについては、より厳格な運用と適切な管理が必要です。さらに長期的には、AIの安全性を維持するために、より広範な防御策が求められるようになるでしょう。将来のモデルは、現在の専用モデルを急速に上回る能力を備えると考えられます」
サイバーセキュリティ戦略、3つの柱
OpenAIによると、サイバーセキュリティ戦略は3つの柱に集約される。第一は、いわゆる「顧客確認(Know Your Customer)」の検証システムであり、新モデルへのアクセスを可能な限り広く「民主化」しつつ、管理された形で提供することを目指すものだ。「正当な用途でアクセスすべき人とそうでない人を恣意的に決めることを避ける仕組みを設計しています」とOpenAIは記している。OpenAIは、特定の組織と提携して限定的に公開するモデルと、2月に導入した自動化システム「Trusted Access for Cyber(TAC)」を組み合わせている。
第二の柱は「反復型デプロイメント」である。これは新機能を「慎重に」公開し、その後に改良を重ねるプロセスで、実環境からの知見やフィードバックを得ることを目的とする。ブログでは特に、「脱獄やそのほかの敵対的攻撃への耐性」や「防御能力の向上」が強調されている。最後に第三の柱として、生成AIの普及に伴い、ソフトウェアセキュリティやそのほかのデジタル防御を支えるための投資が挙げられている。
この取り組みは、OpenAIの広範なセキュリティ施策の一環でもある。例えば、先月発表されたアプリケーションセキュリティ向けAIエージェント「Codex Security」、2023年に開始したサイバーセキュリティ助成プログラム、オープンソースのセキュリティを支援するためのLinux Foundationへの最近の寄付、そして「フロンティアAIの能力による深刻な被害」を評価・防御するための「Preparedness Framework」などが含まれる。
Claude Mythos Previewの発表以降、より高性能なAIモデルの登場がサイバーセキュリティの再考を迫るというAnthropicの主張は、セキュリティ専門家のあいだで議論を呼んでいる。懸念は誇張されており、大手テック企業への権力集中をさらに強める「反ハッカー」的な風潮を助長しかねないとする見方もある。一方で、現行の防御体制の脆弱性や限界はよく知られており、エージェント型AIの時代には、より広範な悪意ある主体によって、これまで以上のスピードと強度で悪用され得ると指摘する声もある。
