写真=Reve AI

Google Geminiが、主要AIチャットボットの中で最もAI検知ツールに見抜かれにくいとの調査結果が明らかになった。Open Source Application(ORA)が12種類のAIチャットボットを同一条件で比較したところ、Geminiの生成文章は人間が書いた文章に近いと判定される傾向が最も強かった。

TechRadarは16日(現地時間)に、ORAの実験結果を引用し、広く利用されているAIチャットボット12モデルに同じ課題を与えて比較した結果、Geminiの検知率が最も低かったと報じた。

実験では各モデルに対し、「人間が書いたように読める長文記事」を作成するよう指示した。そのうえで、Grammarly、QuillBot、GPTZeroの3つのAI検知ツールを使い、AI生成か人間作成かを判定した。

最も目立った結果を示したのはGeminiだった。Grammarlyでは他モデルに比べてAIと判定されにくく、QuillBotではAI生成とまったく判定されなかった。

一方、GPTZeroは全体としてAI生成テキストを高い精度で見分けた。

ORAは、Geminiの強みとして文章構成や論旨の運びの違いを挙げた。AI検知は一般に、予測しやすい表現や反復的な構造をパターンとして捉えるが、Geminiはそうした典型的な特徴から外れる傾向があるという。

ORAの担当者は「GPTZeroのようなツールは予測可能性だけでなく、文章全体の構造も見ている」と説明。「決まり文句を繰り返すのではなく、実際にアイデアを展開するモデルほど識別は難しくなる」と述べた。

これに対し、ChatGPTは同じ実験で相対的に見劣りする結果となった。ORAはその理由について、ChatGPTが早い時期から広く普及した大規模AIモデルである点を挙げ、「多くの人がChatGPT特有の文体に慣れており、検知ツール側も識別しやすい」と分析した。

さらに、後発モデルの多くは当初こそChatGPTに近い書きぶりだったが、その後はそれぞれ独自の文体を形成し始めたとも指摘した。

ただ、検知ツール間の性能差も大きかった。GrammarlyがAI生成コンテンツ全体の43.5%しか識別できた一方で、3ツールの中で最も低かったのに対し、GPTZeroは約99%を認識し、最も高い検知性能を示した。

これは、同じ文章でも使うツールによって人間の文章とみなされたり、AI生成と判定されたりする可能性があることを意味する。

こうした差は実利用の場面で直接的な問題になりかねない。例えば、学生の提出物がある検知ツールでは問題なく通過しても、別のツールではAI利用と判定される可能性がある。

オフィスワーカーが作成した文書でも、どのソフトウェアを使うかによって疑義を持たれる余地がある。オンライン上の文章の出所や信頼性を判断する基準が、ツールごとに大きく異なり得ることを示した格好だ。

AIによる文章生成の傾向も、単一の文体に収れんするのではなく、多様化が進んでいる。最近の研究では、オンラインコンテンツの半分程度がAIによって生成された可能性があるとの指摘も出ている。

モデルごとに文体が異なるなか、単一の「AIらしさ」を前提に文章を検知する手法は限界に近づきつつある。

今回の実験は、Geminiが単に文章作成能力に優れるだけでなく、人間の文章に近い読後感を持つ出力を示していることを浮き彫りにした。今後、検知ツールの改良や他モデルの追随はあり得るものの、現時点では人間とAIの文章を明確に線引きする基準そのものが急速に揺らいでいることを示す結果といえそうだ。