OpenAIが「GPT-5.2」を発表してからわずか1週間足らずで、「ChatGPT」の画像生成機能に大幅なアップデートを実施した。まるでロボットの軍隊がソフトウェアを書いているかのようだが、実際にそうなのだ。

 筆者は先日、OpenAIに画像生成ツールについて問い合わせた。「DALL-E」の話題がほとんど出なくなり、ChatGPTの画像品質がGoogleの「Nano Banana Pro」に追いついていないと感じたためだ。

 当時、OpenAIは「ChatGPTの画像生成は『GPT-4o』によるもの」と説明した。GPT-4oは、ChatGPTがメインとしている大規模言語モデル(LLM)のGPT-5.2よりも世代が古い。しかし、GPT-5.2の公開から数日後、OpenAIは待望の画像生成機能の大幅アップデートを発表した。

 今回の新機能は「ChatGPT Images」または「GPT Image 1.5」と呼ばれている。製品名の命名に一貫性がない点はさておき、この新しい画像生成モデルはChatGPTの全てのプランで利用可能になった。無料版も含まれる。

 なお、現時点ではMac版のChatGPTアプリにはこの機能が反映されていないため、筆者は「Chrome」で利用している。

ChatGPT Imagesの第一印象

 OpenAIが公開した新しいChatGPT Imagesをさっそく試用した。今回は詳細な分析ではなく、まずはどのような結果が得られるのかを確認する。

 最大の特徴は、画像の再コンテキスト化の精度が大幅に向上した点だ。これは、AIが既存の画像を編集し、新しい要素を合成したり、外観や内容を変更したりする機能である。

 筆者は公園の小道を歩く自身の写真をアップロードし、「男性を赤いシャツにし、前面に『keep calm carry on』のロゴを入れる」というプロンプトを与えた。その結果が今回の画像だ。左側がChatGPTの生成結果、右側が筆者による注釈付きの同一画像である。

 まず、横長の画像が正方形に変換された。「アスペクト比を維持」「16:9にする」と指示したが、いずれも無視された。ただし、シャツの変更は正確で、テキスト表現や「keep calm」スタイルの再現は非常に優れていた。

 一方で、指示していない微妙な変更も加えられている。例えば、(1)では表情が変わり、口を少し開けた笑顔がわずかなしかめ面になった。(2)ではカメラ位置が変更され、やや俯瞰(ふかん)から正面寄りに移動している。

 (3)ではカメラが引かれ、ズボンの脚部がより見え、影が追加された。(4)では左側の木との位置関係が変わり、筆者が前方に移動し木が背景に押しやられている。(5)では左腕とベストの間隔が広がり、(6)では右腕とベストの間隔が狭まっている。これはカメラ位置の微妙な回転を示唆する。また、(7)にあったマイクが削除されている。

 それでも、画像に不自然さはなく、いわゆる「不気味の谷」現象が見られない点は評価できる。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)