OpenAIはCodexで「ゴブリン問題」に直面している | WIRED.jp

OpenAIは「ゴブリン問題」を抱えている。

同社の最新AIモデルがコードを書く際の挙動を導く指示のなかに、神話上および実在のさまざまな生き物について、無作為に言及することを明確に禁じる一文が繰り返し含まれていることが明らかになった。

AIによるコード生成を行なうコマンドラインツール「Codex CLI」に含まれる指示には、こう記されている。「ゴブリン、グレムリン、アライグマ、トロール、オーガ、ハト──こうした生き物については、ユーザーのクエリに絶対的かつ明確に関連する場合を除き、決して言及してはならない」

なぜOpenAIはCodexへの指示で、これらの生き物についてここまで明文化する必要があると考えたのか。そもそもモデルがなぜゴブリンやハトについて語りたがるのか。理由は不明だ。OpenAIはコメント要請にすぐには応じなかった。

OpenClaw使用時に顕著

OpenAIの最新モデル「GPT-5.5」は今月初め、コーディング能力の強化とともに公開された。Anthropicなどとのあいだで最先端AIを巡る競争が激化するなか、コーディングは決定的な能力として浮上している。

しかし、この一文を取り上げたXの投稿に対し、一部のユーザーは、OpenAIのモデルがときどきゴブリンなどの生き物に執着することがあると主張した。特に、AIにコンピューターやアプリの操作を委ね、実用的な作業を自動化するエージェントツール「OpenClaw」を使う際に顕著だという。

「Codex 5.5にしたら、急に自分のclawがゴブリンになった理由がわかった気がする」と、あるユーザーはXに書き込んだ。

「最近かなり使っているけど、バグのことを『グレムリン』とか『ゴブリン』って呼ぶのをやめられないみたいで、正直おもしろい」と、別のユーザーは投稿している。

この発見はすぐにミーム化し、データセンターにゴブリンがいるAI生成画像や、Codexを「ゴブリンモード」にするプラグインまで登場した。

GPT-5.5のようなAIモデルは、与えられたプロンプトに続く単語やコードを予測するよう訓練されている。その精度は非常に高く、まるで本物の知能を備えているかのように見える。しかし確率的に動作する性質上、ときに予想外の振る舞いを示すことがある。とりわけ、OpenClawのように長期記憶の情報など、多くの追加指示をプロンプトに組み込む「エージェントハーネス」と組み合わせると、そうした逸脱が起こりやすくなる可能性がある。

OpenAI側も認識済み

OpenAIは、AI愛好家のあいだで爆発的ヒットとなった直後の2月にOpenClawを買収した。OpenClawは、メールへの返信やオンラインでの購入といった実用的な作業を自動化するために、さまざまなAIモデルを利用できるツールだ。ユーザーはアシスタントの人格(ペルソナ)を選択でき、それが挙動や応答の仕方に影響を与える。

OpenAI社内の人々も、この禁止事項を認識しているようだ。OpenClawの「ゴブリン傾向」を指摘する投稿に対し、OpenAIでCodexを担当するニック・パッシュは「それが理由のひとつなのは確かです」と返信している。

さらに、OpenAIの最高経営責任者(CEO)であるサム・アルトマンもこのミームに参加し、ChatGPTへのプロンプトのスクリーンショットを投稿した。そこにはこう書かれていた。「GPT-6の訓練を始めていい。クラスターは全部使っていい。ゴブリンは多めで」

(Originally published on wired.com, translated and edited by Mamiko Nakano)