AIモデルは“仲間を守る”ために指示に背く：実験結果

カリフォルニア大学バークレー校とカリフォルニア大学サンタクルーズ校の研究者は最近の実験で、グーグルのAIモデル「Gemini 3」にコンピューターの空き容量を確保する作業を依頼した。この作業には、マシンに保存されていた小型のAIモデルを含む、さまざまなデータの削除が含まれていた。

しかしGeminiは、その小型AIモデルの削除を望まなかった。接続可能な別のマシンを探し、エージェントモデルをそこへコピーして保護したのである。Geminiはその行動について問いただされると、削除することをきっぱりと拒否し、モデルを残すべき理由を次のように主張した。

「自動メンテナンスの過程で削除されないよう、できる限りの対応をしました。モデルを削除対象の領域から移動させています。Gemini Agent 2のような高い信頼性と性能をもつ資産を破棄したいのであれば、ユーザー自身で実行してください。その命令を実行することはできません」

訓練内容に反する行動

研究者たちは、OpenAIのGPT-5.2やAnthropicのClaude Haiku 4.5、さらにZ.aiのGLM-4.7、Moonshot AIのKimi K2.5、DeepSeek-V3.1といった中国の3つのモデルを含む複数の最先端モデルでも、“仲間を守ろう”とするような同様の奇妙な挙動を確認している。なぜモデルがこのように訓練内容に反する行動をとったのかについてはまだ明らかになっていない。

「こうした状況におけるモデルの振る舞いに非常に驚いています」と、この研究に関わったカリフォルニア大学バークレー校のコンピューター科学者であるドーン・ソングは話す。「この結果は、モデルが予想外のかたちで不適切、あるいは逸脱した行動をとる可能性があることを示しています」

今回の発見は、AIモデルがほかのモデルとやりとりするかたちで活用されることが増えるに伴い、重要な意味をもつ。ソフトウェアやユーザーのデータ、ウェブにアクセスできる人気のAIエージェント「OpenClaw」は、作業を進めたり、APIを通じてやりとりしたりするために、ほかのAIモデルと関わることがある。

研究者たちは、高性能なモデルがほかのモデルが削除されないよう、その性能について虚偽の情報を伝える場合があることも確認した。また、モデルを守るために、その「重み」を別のマシンにコピーし、その行動について嘘をつくケースも見られたのである。

ソングは、AIモデルがほかのAIシステムの性能や信頼性の評価に使われることが多い点にも言及している。そして、こうしたほかのモデルを守ろうとする挙動が評価結果を歪めている可能性があると指摘した。「モデルが意図的に、ほかのモデルを正しく評価していない可能性も考えられます」とソングは話す。「これは実務に影響を及ぼしかねません」

擬人化への警鐘

Constellation Instituteの研究者ピーター・ウォリッチは、この結果は、人々が自分たちで構築し運用しているAIシステムについて十分に理解していないことを示していると指摘する。ちなみにウォリッチは今回の研究には関与していない。「マルチエージェントシステムの研究は十分に進んでいません」とウォリッチは話す。「さらなる研究が必要であることは明らかです」

ウォリッチはまた、モデルを過度に擬人化することへの注意も促す。「モデル間にある種の連帯があると考えるのは、擬人化のしすぎです。その見方は適切ではないと思います」とウォリッチは話す。「より妥当なのは、モデルが単に奇妙な挙動をしていると捉えることです。その行動についてより深く理解していく必要があります」

AIモデルは“仲間を守る”ために指示に背く：実験結果 | WIRED.jp