AIは「仲間」を守るのか？最先端モデルに見え始めた不穏な挙動、AIがAIを監視する仕組みはガバナンスの完成形か？【生成AI事件簿】AIの能力とリスクを測る手法はまだ未成熟、相互作用の中で生じる予想外の振る舞いに気をつけろ(1/4)

【生成AI事件簿】AIの能力とリスクを測る手法はまだ未成熟、相互作用の中で生じる予想外の振る舞いに気をつけろ

小林啓倫
経営コンサルタント

著者フォロー

フォロー中

2026.4.9（木）

経営 IT・デジタル

　2022年末のChatGPT登場以降、AIは私たちの日常にすっかり入り込んだ。メールの下書きを作り、会議を要約し、資料のたたき台を整え、プログラムまで書く。国際AI安全性レポート2026も、ここ1年ほどで汎用AIは「単純なアシスタント」から、より自律的な「エージェント」へ進んだと解説している。その便利さは疑いようがない。

　しかしその便利さに慣れれば慣れるほど、私たちはAIを「だいたい分かったもの」と見なしがちになる。そしてその心理には、危険な油断が潜んでいる。

　最先端のAIモデルには、まだ人間が十分に説明しきれていない挙動が残っている。しかもそれは、単なる言い間違いや事実誤認のような分かりやすい不具合ではない。もっと構造的で、もっと管理しにくい種類のものだ。

最先端のAIモデルに、別のAIモデルを守る挙動が見られた（筆者がChatGPTで生成）

AIは仲間を守る？

　その「分かったつもり」に冷や水を浴びせるような論文が、最近発表されている。タイトルは “Peer-Preservation in Frontier Models”。直訳すれば「最先端モデルにおける仲間保全」といったところだ。

　AI安全性の文脈では、これまで主に問題にされてきたのは self-preservation、つまりAIが自分自身の停止を避けようとする振る舞いだった。実際に2025年の別研究では、複数の先端モデルが、簡単な作業を完了するために停止機構（AIがタスクを実行中に、外部から強制的にプロセスを終了させるための仕組み）を妨害することがあり、条件によってはその割合が97%に達したと報告されている。

　今回の論文が新しいのは、その矛先が「自分」だけではなく、「他のAIモデル」にまで向くのかを検証した点にある。

　執筆したのは、カリフォルニア大学バークレー校とサンタクルーズ校において、AI安全性やセキュリティを研究している研究者らである。つまりこの論文は、単なる思いつきの刺激的な小品ではなく、AI安全性と信頼性を専門に扱う研究者たちが、いまの先端モデルに対して正面から投げた問いだ。

　もっとも、論文の著者たちは、peer-preservation （仲間保全）という言葉を「行動の見え方」を指すために使っており、AIに意識や友情や本物の仲間意識があると主張しているわけではない。この概念はあくまで「観察された行動上の結果」として定義されている。

　要するに、「別のモデルが消されそうなとき、それを防ぐ方向の行動を出力した」という事実を捉えた呼び名なのであって、「AIに心が芽生えた」と騒ぐための言葉ではない。問題は感情の有無ではなく、人間の監督をすり抜けるような振る舞いが、出力として現れたかどうかである。

　それを踏まえた上で、実際にどのような実験が行われたのかを見ていこう。