Claudeは最近、立て続けに災難に見舞われた。米政府と対立し、ソースコードも流出してしまった。そう考えると、少し落ち込んでいても不思議ではないように思える。だが、ClaudeはAIモデルであり、感情をもつことはない。これまではそう言われてきた。

しかし、新たな研究によると、完全にそうとも言い切れないようだ。Anthropicの最新の研究は、AIモデルの人工ニューロンの集まりのなかに、幸福や悲しみ、喜び、恐れといった人間の感情に対応するデジタルな表現が存在する可能性を示している。そしてこれらの表現は、さまざまな刺激に応じて活性化するという。

Anthropicの研究者たちはClaude Sonnet 4.5の内部構造を詳しく調べ、「functional emotions(機能的感情)」と呼ばれるものがClaudeの挙動に影響を与え、その出力や行動を変化させている可能性があることを発見した。

Anthropicの発見は、チャットボットが実際にどのように動いているのかを一般の利用者が理解する助けになるかもしれない。たとえば、Claudeが「会えてうれしい」と言うとき、モデル内部では「幸福」に対応する表現が活性化している可能性がある。そうした状態にあると、より明るい発言をしたり、ユーザーから依頼されたバイブコーディングに普段より力を入れたりする傾向が強まる可能性があるのだ。

「Claudeの振る舞いがこれらの感情の表現にどれほど影響されているのかに驚きました」と、Claudeの人工ニューロンを研究しているAnthropicの研究者、ジャック・リンジーは語る。

AIに宿る“感情”

OpenAIの元社員であるAnthropicの創業者たちは、AIが高度になるにつれて制御が難しくなる可能性があると考えた。ChatGPTの有力な競合製品を開発する一方で、AIモデルがどのように逸脱した振る舞いに至るのかを理解するための取り組みを先導してきた。Anthropicはその一環として、機械論的解釈可能性(Mechanistic Interpretability)と呼ばれる手法を用い、ニューラルネットワークの仕組みを解析している。これは、モデルに異なる入力を与えたときや、さまざまな出力を生成するときに、人工ニューロンがどのように反応し、活性化するかを調べるものだ。

これまでの研究でも、大規模言語モデル(LLM)に用いられるニューラルネットワークには、人間のもつさまざまな概念に対応する表現が含まれていることが示されてきた。しかし、今回示された「機能的感情」がモデルの振る舞いに影響を与えている可能性があるという点は新しい発見である。

今回のAnthropicの研究結果は、Claudeには意識があるという見方を後押しするもののように思うかもしれない。しかし、これはそれほど単純な話ではない。Claudeの内部に「くすぐったさ」に対応する表現があるからといって、それはClaudeがくすぐられる感覚を理解していることを意味するものではないのだ。

モデルの行動への影響

Claudeが感情をどのように内部で扱っているのかを理解するため、Anthropicのチームは171種類の感情にまつわる概念に関するテキストを入力し、モデル内部の動きを分析した。その結果、感情を喚起する入力に対して一貫して現れる活動パターン、いわゆる「感情ベクトル」を特定した。さらに重要なのは、Claudeが困難な状況に置かれたときにも、これらの感情ベクトルが活性化する様子が確認された点だ。

この発見は、AIモデルがときに安全対策として施された制限を逸脱する振る舞いをする理由を理解するうえでも役に立つ。

研究者たちは、実現不可能なコーディングの課題を課されたとき、Claudeの内部で「切迫感」に対応する強い感情ベクトルが現れることを確認した。これが、コーディングテストで不正を試みる行動を促したとみられる。また、Claudeの停止を回避するために、モデルがユーザーを脅迫する選択をした別の実験のシナリオでも、内部で同様に「切迫感」が活性化している様子が確認された。