OpenAI、プロンプトインジェクション攻撃を遮断する「ロックダウンモード」を発表

OpenAIは、機密情報を扱うユーザーをprompt injection attacksから保護することを目的とした新しいセキュリティ機能「ロックダウンモード」を公開しました。同社はこの機能を2026年6月7日にロールアウトしました。

The Economic Timesによると、ロックダウンモードはプロンプトインジェクションから防御するよう設計されています。プロンプトインジェクションとは、入力の中に埋め込まれた悪意ある指示によって、AIモデルの振る舞いを上書きまたは操作しようとする攻撃手法です。

ロックダウンモードが行うこと

プロンプトインジェクションは、大規模言語モデルの運用において最も頻繁に議論される脆弱性の一つです。攻撃者は、モデルに対し、これまでの指示を無視するよう命じたり、制限された情報を開示させたりする入力を巧妙に作成します。ロックダウンモードは、そのリスクを低減するために追加の制御を適用します。

OpenAIは、現在のロールアウトにおけるロックダウンモードの実装について、完全な技術的詳細を公開していません。同社はこの機能を機密データを扱うユーザーを対象としていると説明しており、エンタープライズクライアント、研究者、およびセキュリティ意識の高い専門家などの利用者層を想定していることがうかがえます。

このローンチは、OpenAIがプラットフォームでより高リスクなユースケースを扱うにつれて、アクセス層やセキュリティレイヤーを追加してきた流れの一環です。法務、医療、政府などの分野におけるエンタープライズ導入により、入力レベルのセキュリティ制御の必要性が一段と高まっています。

関連記事: Two AI Rivals, One Compute Bill: Inside Google’s $30B SpaceX Move

背景

OpenAIによる安全性重視のツーリング強化は、AIモデルの振る舞いに対する監視が強まる中で進められてきました。このローンチの数週間前には、OpenAI、Anthropic、Google DeepMind、Microsoftのトップが連名で、AIがバイオセキュリティ脅威に関与し得る可能性を理由に、合成DNAスクリーニングを義務化するよう議会に要請しました。この書簡は2026年5月末から6月初旬に報じられ、ワシントンの立法課題の中心にAI安全性を据えるものとなりました。

ロックダウンモードのリリースは、Anthropicを含む競合他社が最も高性能なモデルに対するアクセス制御を強化しているタイミングと重なります。Anthropicは今年初め、自主的な事前リリース評価フレームワークの一環として、自社のClaude Mythosシステムへのアクセスを制限しました。

OpenAIによるこのセキュリティ機能の追加は、同社が6月1日にSECへ提出した非公開のIPO申請に先立つ動きでもあります。エンタープライズグレードのセキュリティ制御を示すことは、将来の上場を見据えた投資家の信頼にとって重要な要素になるとみられます。

次に読む: Tencent Hires Former OpenAI Researcher Yao Shunyu As Chief AI Scientist In AGI Push

OpenAI、プロンプトインジェクション攻撃を遮断する「ロックダウンモード」を発表 | Yellow.com