「ChatGPT」の画像生成が劇的進化-試して分かった驚きの精度 - ZDNET Japan

　OpenAIが「GPT-5.2」を発表してからわずか1週間足らずで、「ChatGPT」の画像生成機能に大幅なアップデートを実施した。まるでロボットの軍隊がソフトウェアを書いているかのようだが、実際にそうなのだ。

　筆者は先日、OpenAIに画像生成ツールについて問い合わせた。「DALL-E」の話題がほとんど出なくなり、ChatGPTの画像品質がGoogleの「Nano Banana Pro」に追いついていないと感じたためだ。

　当時、OpenAIは「ChatGPTの画像生成は『GPT-4o』によるもの」と説明した。GPT-4oは、ChatGPTがメインとしている大規模言語モデル（LLM）のGPT-5.2よりも世代が古い。しかし、GPT-5.2の公開から数日後、OpenAIは待望の画像生成機能の大幅アップデートを発表した。

　今回の新機能は「ChatGPT Images」または「GPT Image 1.5」と呼ばれている。製品名の命名に一貫性がない点はさておき、この新しい画像生成モデルはChatGPTの全てのプランで利用可能になった。無料版も含まれる。

　なお、現時点ではMac版のChatGPTアプリにはこの機能が反映されていないため、筆者は「Chrome」で利用している。

ChatGPT Imagesの第一印象

　OpenAIが公開した新しいChatGPT Imagesをさっそく試用した。今回は詳細な分析ではなく、まずはどのような結果が得られるのかを確認する。

　最大の特徴は、画像の再コンテキスト化の精度が大幅に向上した点だ。これは、AIが既存の画像を編集し、新しい要素を合成したり、外観や内容を変更したりする機能である。

　筆者は公園の小道を歩く自身の写真をアップロードし、「男性を赤いシャツにし、前面に『keep calm carry on』のロゴを入れる」というプロンプトを与えた。その結果が今回の画像だ。左側がChatGPTの生成結果、右側が筆者による注釈付きの同一画像である。

　まず、横長の画像が正方形に変換された。「アスペクト比を維持」「16:9にする」と指示したが、いずれも無視された。ただし、シャツの変更は正確で、テキスト表現や「keep calm」スタイルの再現は非常に優れていた。

　一方で、指示していない微妙な変更も加えられている。例えば、（1）では表情が変わり、口を少し開けた笑顔がわずかなしかめ面になった。（2）ではカメラ位置が変更され、やや俯瞰（ふかん）から正面寄りに移動している。

　（3）ではカメラが引かれ、ズボンの脚部がより見え、影が追加された。（4）では左側の木との位置関係が変わり、筆者が前方に移動し木が背景に押しやられている。（5）では左腕とベストの間隔が広がり、（6）では右腕とベストの間隔が狭まっている。これはカメラ位置の微妙な回転を示唆する。また、（7）にあったマイクが削除されている。

　それでも、画像に不自然さはなく、いわゆる「不気味の谷」現象が見られない点は評価できる。

ZDNET Japan 記事を毎朝メールでまとめ読み（登録無料）

「ChatGPT」の画像生成が劇的進化–試して分かった驚きの精度 – ZDNET Japan