OpenAIの最新画像生成モデル、「ChatGPT Images 2.0」の実力は? | WIRED.jp

OpenAIは4月21日、新たな画像生成AIモデル「ChatGPT Images 2.0」を発表した。このモデルはひとつのプロンプトから複数の画像を生成でき、学習用の冊子のようなまとまった出力にも対応している。また、中国語やヒンディー語など、英語以外の言語のテキストを含む画像を生成することも可能だ。この機能は世界中のChatGPTおよびCodexのユーザーに提供されており、有料プランの加入者はさらに高性能なバージョンを利用できる。

大手AI企業が新たな画像モデルを発表すると関心が高まり、利用が増えることもある。ユーザーが自身の画像を加工して投稿するミーム的なトレンドがSNSで広がった場合、その傾向はさらに顕著だ。昨年、グーグルがAIモデル「Nano Banana」を発表した際には、ユーザーが自分のリアルなフィギュアの画像を投稿し始め、大きな話題を呼んだ。今年初めには、AIで生成した似顔絵を投稿する動きが広がり、それに使われた「ChatGPT Images」がSNS上で注目を集めている。

Image may contain Publication Advertisement Poster Face Head Person Adult Wedding Accessories and Sunglasses

OpenAIで生成した画像

進化したポイント

ChatGPT Images 2.0はChatGPTの「推論機能」を活用できることから、インターネットで最新の情報を検索しつつ、一度に複数の画像を生成できる。つまり、ひとつのプロンプトから、追加の処理を重ねることでより完成度の高い出力が可能になっているのだ。また、知識の更新時期も新しく、2025年12月までの情報に対応している。

その結果、新モデルの出力はより細部まで表現されるようになった。たとえば今回、翌日のサンフランシスコの天気予報とおすすめのアクティビティをまとめたインフォグラフィックを生成した。そこには雨天の正確な天気予報に加え、フェリービルディング、カストロ劇場、ペインテッド・レディース、トランスアメリカ・ピラミッドといった有名な建物も、それらしく描かれていた。

さらにChatGPT Images 2.0では、アスペクト比を指定したいユーザー向けのカスタマイズ性も向上している。横長の3対1から縦長の1対3までの画像生成に対応しており、ユーザーはプロンプトのなかで画像サイズを指定できるのだ。

第一印象

新モデルを使って数時間画像を生成してみたところ、少なくとも英語に関しては文字の描画能力が高くなっていることに感心した。少し前まで、主要なモデルでもテキストを含む画像には崩れた文字や余分な文字が多く見られたのだ。2年前のChatGPTは画像内のラベルの生成にも苦戦していたが、ChatGPT Images 2.0のより整った複雑な出力からは、性能の改善が見て取れる。グーグルもNano Bananaの最近のバージョンで、テキストを含む画像の品質向上に注力していた。

Image may contain Advertisement Poster Person Beverage Coffee Coffee Cup Clothing Coat and Jacket

筆者がAI生成で作成した画像