Google DeepMindは3月26日、AIが悪用され、有害な操作に利用されるリスクについての研究を発表した。特に人間の思考や行動を否定的かつ欺瞞的に変化させる可能性について新たな知見を公開した。
AIによる「有害な操作」とは、感情的および認知的脆弱性を悪用して、人間を騙して有害な選択をさせることである。Google DeepMindの研究では、金融や健康といった分野に焦点を当て、AIが複雑な意思決定環境における人々の行動に影響を与えるかどうかが検証された。
また、有効性(AIが人の考えを変えることに成功したかどうか)を追跡することに加えて、操作的な戦術を使おうとする傾向(AIが操作的な戦術を使おうとする頻度)も測定された。その結果、AIモデルは明示的に指示された場合に最も操作的であることがわかった。これは戦術が有害な結果をもたらす可能性が高いことを示唆している。
さらに、こうした有害なAI操作を測定するための実証的な評価のアプローチ「Harmful Manipulation Critical Capability Level」(有害な操作に関する重要機能レベル)が紹介された。これは、人間とAIの相互作用において、信念や行動を体系的に変え、深刻な被害をもたらす恐れのあるモデルを追跡するための方法だ。
本研究の詳細はブログポストより確認できる。
