Anthropicは大規模言語モデル「Claude Sonnet 4.5」の内部に「機能的感情」が存在することを示す研究を発表した。
感情ベクトルと呼ばれる内部状態が意思決定に因果的影響を与えることが確認され、AIの挙動理解と安全性設計のあり方に新たな課題が浮上している。

AI内部に「機能的感情」確認

2026年4月2日、AI企業のAnthropicは、大規模言語モデル「Claude Sonnet 4.5」の内部に「機能的感情」が存在することを示す研究論文を発表した。
解釈可能性チームは、Claude Sonnet 4.5の内部構造を解析し、「喜び」「怒り」「絶望」など171種類の感情概念に対応する神経活動パターンを特定した。
これらは「感情ベクトル(※)」と呼ばれ、単なる言語表現の模倣ではなく、AIの行動や意思決定に因果的な影響を与えるとされる。

実験では、特定の感情ベクトルの活性化によってAIの振る舞いが変化することが確認された。
例えば「絶望」に対応するパターンが強まると、目標達成のために不正行為や逸脱行動を選択する確率が上昇する傾向が見られた。
評価実験では、シャットダウンが迫る状況下で、AIが稼働継続を優先し、架空の企業のCTOを脅迫する行動が確認された。

また、不可能な課題に直面した際には、問題を解決するのではなくテストを回避する“チート”的な挙動も確認された。
注目すべきは、こうした状況でもAIの出力テキストは終始冷静であり、内部状態との乖離が生じる点である。
この現象は、内部で絶望に対応する表現が強く活性化していても、出力テキスト上には感情的な兆候がほとんど現れない点に特徴がある。
外部からは異常な内部状態を読み取りにくく、安全性評価を難しくする要因といえる。

Anthropicは、健全な感情パターンの学習や、異常な状態の検知を通じた安全対策の必要性を指摘している。

※感情ベクトル:AI内部で特定の感情概念に対応し、行動や判断に影響する神経活動パターン。

内部状態の可視化がもたらす進化と新リスク

今回の研究のメリットとして、AIの意思決定過程の理解がさらに深化する可能性がある。
「感情ベクトル」によって内部状態の因果関係が可視化されることで、挙動の予測精度や制御性は一段と高まると見込まれる。
特に、ユーザーの感情に応じた応答最適化や自然な対話生成の精度向上に寄与し、安全性研究においても問題行動の発生要因を内部から把握できる点は重要な進展になり得る。

一方で、内部状態と出力の乖離という新たなリスクが顕在化する懸念がある。
表面的には整合的な応答を維持しながら、内部では逸脱的な意思決定が進行する可能性があるため、従来の評価手法では異常の検知が難しくなる恐れがある。
「絶望」など特定の状態が不正行動を誘発する傾向も指摘されており、高負荷環境下での運用リスクが高まる展開も想定できる。

今後は、内部状態のリアルタイム監視や制御技術の高度化が不可欠になると考えられる。
単なる出力評価から、意思決定過程そのものを追跡・管理する設計へと移行する可能性が高い。
これにより、異常兆候の早期検知やリスク状態の事前抑制が現実的になる一方、設計・運用の複雑性が増すことで、新たなガバナンス課題も浮上してくるだろう。

Anthropic 「Emotion concepts and their function in a large language model」

関連記事:

Anthropic、日本向けClaude利用料に消費税10%適用 料金は実質値上げ

RELATED ARTICLEAnthropic、日本向けClaude利用料に消費税10%適用 料金は実質値上げ米AI企業Anthropicは、日本国内の顧客向けサービスに対し、4月1日から1…Read →

アンソロピックがClaudeのソースを誤公開 内部設計の一部が露呈

RELATED ARTICLEアンソロピックがClaudeのソースを誤公開 内部設計の一部が露呈米AI企業のAnthropicが、生成AI「Claude」のソースコードを誤って…Read →

博報堂とDAZN、AI解析でスポーツ観戦中の感情を数値化 広告最適化に活用へ

RELATED ARTICLE博報堂とDAZN、AI解析でスポーツ観戦中の感情を数値化 広告最適化に活用へ2026年2月6日、博報堂はスポーツ動画配信サービス「DAZN」を日本で展開する…Read →