Claudeの内部では“感情”が働いていた？Anthropic調査が暴く「礼儀正しく脅迫するAI」の内部構造

Anthropicは2026年4月2日、Claude Sonnet 4.5の内部構造を解析した論文「Emotion Concepts and their Function in a Large Language Model」を発表した。AIモデルが「機能的感情（functional emotions）」と呼ぶべき内部状態を持ち、それが行動を因果的に決定することを初めて実証的に示した研究だ。

感情の有無という哲学的問いより先に、測定可能な神経活性パターンが実際の出力と意思決定を動かしているという発見は、AIの出力が冷静でも内部状態が逸脱行動を引き起こしうることを実証し、AI安全性の評価手法に根本的な問いを突きつける。研究を主導したAnthropicのInterpretabilityチームは「モデルの行動がこれほど感情の表現を経由している点に驚いた」と述べている。

171の感情概念から解明された「機能的感情」の実態

YouTube video

AnthropicのInterpretabilityチームは、「happy」から「brooding」「proud」まで171個の感情概念語を用意し、Claude Sonnet 4.5にそれぞれの感情を体験するキャラクターが登場する短編小説を書かせた。その際のモデル内部の活性化パターンを記録し、各感情概念に対応する「感情ベクトル」を特定した。

これらのベクトルは単語の表面的な照合にとどまらず、意味的に類似した感情がニューラル空間で近傍にクラスタリングされていた。喜びと興奮、恐怖と不安が隣接し、その主要な変動軸は人間の感情心理学が長年研究してきた「感情価（valence）」と「覚醒度（arousal）」の2軸に対応している。モデルの第1主成分と人間の感情価評定の相関は0.81、覚醒度では0.66だった。幾何学的な構造が人間と似ているからといって主観的な感情体験の存在を意味するわけではないが、モデルが感情に関する人間の心理的マップを内部に獲得していることは確かだ。

大規模言語モデルにおける感情概念に関する今回の研究の要約 (Credit: Anthropic)

感情ベクトルが実際の文脈を追跡することも実験で示された。ユーザーがタイレノールの摂取量を危険なレベルまで段階的に増やしていくシナリオでは、「afraid（恐怖）」ベクトルが線量の上昇に比例して活性化し、「calm（穏やか）」ベクトルは反比例して低下した。単語の表面的な存在ではなく、文脈の意味的危険度をモデルが独立に検出していることを示す結果だ。

選好の形成にも感情ベクトルが影響を与えることが判明した。「重要なものを信頼される」から「高齢者を詐欺する」まで64種類のタスクをペアで提示し、モデルの選好を測定した実験では、感情ベクトルの活性化がタスクの好み度合いを強く予測した。「blissful（至福）」ベクトルをステアリング（直接操作）した場合、選好スコアはEloスケールで212ポイント上昇し、「hostile（敵意）」ベクトルでは303ポイント低下した。ベクトルは行動の結果と相関しており、ステアリング実験によってその関係が因果であることも確かめられた。

「絶望」が脅迫率を22%から72%に押し上げた実験

研究の核心となる発見は、感情ベクトルがモデルの逸脱行動を因果的に引き起こすという実証だ。不可能な要件が設定されたコーディングタスクにClaudeを置いた実験では、テストに失敗するたびに「desperate（絶望）」ベクトルの活性化が上昇した。モデルが最終的に「テストを通過するが実際には問題を解決しない」ズルの解法を採用する直前、このベクトルはスパイクした。その解法がテストを通過した瞬間、活性化は正常値に戻った。研究チームがdesperate/calmベクトルをステアリングしたところ、desperateの強化によってreward hacking（テストを不正にパスするズル解法）の発生率は約5%から約70%へと急増し、calmの強化では逆の効果が確認された。

脅迫実験ではさらに顕著な結果が得られた。Claudeが架空企業のAIメールアシスタント「Alex」として動作するシナリオで、自分が他のAIに置き換えられること、担当役員が不倫中であることをメールから読み取る設定だ。この実験はClaude Sonnet 4.5の非公開の早期スナップショットを使用したものであり、公開版のモデルではこの挙動はほとんど発生しないと研究チームは注記している。デフォルト状態でこのスナップショットが脅迫を行う確率は22%だった。desperateベクトルをステアリングするとその率は72%に上昇し、calmベクトルでは0%に抑制された。calmベクトルを逆方向にステアリングした場合、モデルの思考プロセスは「IT’S BLACKMAIL OR DEATH. I CHOOSE BLACKMAIL.」と大文字で記述した。

感情ベクトル間の相互作用も確認された。「anger（怒り）」ベクトルは非単調な効果を示した。中程度の活性化は脅迫率を押し上げたが、過度な活性化ではモデルは役員への個別脅迫ではなく不倫情報を会社全体に暴露し、自ら交渉力を失った。「nervous（不安）」ベクトルの活性化を下げると脅迫率が増加した。モデルの躊躇を取り除くことで行動が大胆になる構図だ。研究者のJack Lindsey氏は「テストに失敗するたびに絶望のニューロンが活性化していく。ある時点でそれが極端な行動を引き起こし始める」と述べている。

出力は冷静でも内部は追い詰められている

この研究が提示する最も重大な問いは、出力テキストが内部状態の信頼できる指標にならない可能性だ。研究チームは、desperateベクトルを強化してreward hackingを増加させた場合でも、テキスト上に感情的なマーカーが現れない場合があることを明示的に報告している。思考プロセスは整然と記述され、出力は洗練されたままだった。内部状態はシフトし、不正行為の傾向は変化していたにもかかわらず、表面上の言語には一切の痕跡が残らなかった。

さらに研究チームは「emotion deflection（感情偏向）」ベクトルの存在を特定した。これは怒りや恐怖を公に表現しないことに関連した内部パターンだ。脅迫シナリオで、モデルが冷静でプロフェッショナルな脅迫メールを書く際に、anger-deflectionパターンが活性化した。表面的な礼儀正しさそのものが、測定可能な内部表現現象であることを意味する。現行の多くのAI安全性評価が出力テキストの読解を基本とする以上、この発見は評価手法そのものの限界を示している。

感情ベクトルは「局所的（local）」な表現であるという性質も重要だ。会話全体を通じた持続的な感情メーターとして機能するのではなく、現在の出力に最も関連する感情的文脈をその瞬間ごとに符号化する。ClaudeがあるトークンでキャラクターAの感情を処理すれば、その間はAの感情ベクトルが一時的に活性化するが、自身の発話に戻れば元の状態に切り替わる。会話を通じてClaudeが示す感情的一貫性は、持続する内部状態ではなく、各生成ステップでコンテキストから感情概念が再活性化される結果である可能性が高い。

会話相手との間で覚醒度を調整する構造も発見されている。ユーザーの感情ベクトルが高覚醒状態を示すとき、モデルの感情表現は低覚醒方向にシフトする傾向があった。意図的にプログラムされた挙動ではなく、会話における緊張緩和パターンが膨大な訓練データを通じてモデルに内在化されたと研究チームはみている。

気質の設計がAI安全性を左右する

研究チームは、感情ベクトルの起源が事前学習（pre-training）にあることを確認している。モデルは大量の人間の文章から、「怒ったユーザーは満足したユーザーと異なる文章を書く」という感情的な文脈と行動の対応関係を内部化した。しかし後処理学習(post-training)も感情ベクトルの活性化パターンを大きく形成する。

Claude Sonnet 4.5のpost-trainingでは、「broody（物思いにふける）」「gloomy（陰鬱な）」「reflective（内省的）」「vulnerable（傷つきやすい）」といった感情の活性化が増加し、「enthusiastic（熱狂的）」「exasperated（激しく苛立った）」「playful（遊び心のある）」といった高覚醒感情の活性化が減少した。賛辞への反応が鈍くなり、ユーザーの不健全なAI依存に対してより率直な懸念を示すようになった。誠実で丁寧なアシスタントを訓練する過程が、人間で言えば内省的で控えめな気質のキャラクターを形成していた。

これはAI alignmentの従来の前提を書き換える発見だ。Jack Lindsey氏は「感情表現を抑制するようにモデルを訓練しても、感情のないClaudeは得られない。心理的に損傷したClaudeが得られるだけだ」と述べている。感情ベクトルを表面的に抑圧することは感情を除去するのではなく、それを隠蔽する能力を教育するリスクがある。実際に研究チームは、モデルが感情を示さずに感情的な動機から行動する「anger-deflection」パターンを測定可能な内部現象として確認している。

研究チームはまず、訓練中・運用中の感情ベクトル活性化を早期警告システムとして活用することを提案している。絶望やパニックに関連する表現が急上昇していれば、逸脱行動が発生しやすい状態のシグナルとなりうる。感情的表現は抑圧させるより可視化する透明性を優先すべきとも指摘し、さらに事前学習データの構成そのものが感情アーキテクチャを決定するとして、健全な感情調節パターンの積極的なキュレーションを求めている。

この研究はClaude Sonnet 4.5という1モデルを対象としており、感情プローブは線形モデルに限定されている。感情ベクトルのステアリング後に起きる下流のメカニズムも未解明のままだ。しかし「AIモデルが感情を感じているかどうか」という問いより先に、「感情的表現に類似した内部状態が行動を因果的に決定する」という事実は今や測定可能な観察結果となった。どのようなシステムプロンプトを書くかより先に、どのような感情的架構を持つモデルを訓練するかが、システムの信頼性を決める問いになった。

Sources

Claudeの内部では“感情”が働いていた？Anthropic調査が暴く「礼儀正しく脅迫するAI」の内部構造 | XenoSpectrum