画像生成のパラダイムシフト「ChatGPT Image 2.0」の進化が狙うもの（Impress Watch）

OpenAIは4月21日に、新たな画像生成モデル「ChatGPT Images 2.0」を公開した。複雑なビジュアルタスクを処理し、”そのまま使える”ビジュアルを生成できるよう機能向上しており、ChatGPTとCodexなどから利用できるが、日本でも早速“ヒット”となったようだ。

【この記事に関する別の画像を見る】

動画生成AI「Sora」の撤退など、コンシューマ向けから「エンタープライズ」に舵を切ったOpenAIだが、画像生成についてはこれまで以上に強化している。画像生成AIにおいては、しばらくはGoogleのNano Bananaの評価が高く優勢とされていたが、ChatGPT Images 2.0は、AIモデルの性能ランキングとして使われる「Arena」のスコアでも大きく上回っている。

ChatGPT Images 2.0では、指示(プロンプト)への追従や、オブジェクトの正確な配置と関連付け、高密度なテキストのレンダリングなどが強化されている。簡単に使ってみるだけでも、シンプルなプロンプトだけで、高品質で“AIらしさ”が少ない画像が作られることがわかるはずだ。

OpenAIのハタ・ケンジ氏は、その中でも「多言語」対応が大きな進化としており、「『AGI(汎用人工知能)が全人類に利益をもたらす』というOpenAIのミッションに向け、今回『言語』を特に重視した」と説明。「画像」モデルながら、多言語能力の飛躍的な向上と、テキストレンダリングの強化をあわせて、「画像生成のパラダイムシフト」と強調する。

日本語対応もその強化の一環で、実際にChatGPT Image 2.0を使っても、かつてのような「謎フォント」で描画されることはなく、フォントや文字詰めも自然なものとなっている。日本語などアジア圏特有の「縦書き(縦組み)」については、まだ課題はあるとハタ氏も認めるが、「需要は十分に認識しており、高いレベルに改善できる」とした。

その能力を示すのが、英語から日本語への翻訳だ。英語のお弁当メニュー表を日本語に変換したものだが、画像やレイアウトはそのままに英語から日本語に変換されているほか、下部には変換時の為替レートも示されている。

さらに、4:3や1:1など指定したアスペクト比に対応した生成にも対応。構図やビジュアルセンスも高めたことで、生成された画像から「AIらしさ」を減らし、自然なものに感じられるようデザインされている。

OpenAIによるプレスリリースもユニークなものだ。「文字」ではなく「画像」でできることを示しており、ChatGPT Image 2.0で作成した、ポスターや解説資料、図表、マンガなど、言語自体がデザインの一部となっているものを紹介している。

その能力を示す実例といえるのが、スクリーンショットの例だろう。Macのスクリーンショットにみえるが、ChatGPT Images 2.0で作成したものだという。

こうした繊細なテキスト描画から、写真と見紛うようなフォトリアリスティックな写真まで、あらゆるビジュアル表現の対応力を強化したのがChatGPT Image 2.0とする。

さらに、ハタ氏が強調するのが、「推論」能力を備えた画像生成AIモデルであること。ChatGPT Image 2.0では、視覚的な知識や一般的な知識をもとに、Webから「足りない情報」を補完するなどで、細かく指示しなくても意図に近い画像を生成する力を向上している。

加えて、基本モード「Instant」だけでなく、「Thinking(思考)」モードと「Pro」モードを搭載した。Thinkingでは、1つのプロンプトから複数の異なる画像を生成し、生成結果を見直しながら、画像を生成する。これにより、特に、正確さ、最新性、一貫性、視覚的なまとまりが求められる場面で効果を発揮できるという。

また、Thinkingでは複数のパターンの画像を一度に生成できるようになった。例えば、漫画の連続ページの作成、各部屋ごとのデザインの見直し案、異なるサイズのSNS用画像などを一度に生成できる。1度に生成するため、キャラクターやオブジェクトの一貫性を保てる点も特徴。最大8枚の画像をまとめて生成できる。

安全性や不正利用についても、入出力のセーフガードを導入しているほか、C2PAによる来歴記録やSynthIDなどの対策を導入している。

活用シーンについては、「画像に関わるあらゆるもの」としており、ビジネスでも趣味でも学習でも幅広く使えると説明。アイデアを形にするクリエイティブツールだけでなく、業務の作図、視覚的な学習パートナーなどが想定されている。ハタ氏自身も「目で見て学ぶタイプ(ビジュアルラーナー)」であるため、個人的になにかを学ぶ時には、Thinkingモデルを使って複雑な内容を図解・視覚化し、理解するのに役立てているという。

OpenAIのニュースリリースでは、ChatGPT Image 2.0により正確で意図に沿った画像を生成できるようになったため、画像生成は「単なるレンダリング」から「戦略的なデザイン」、「ツール」から「視覚システム」へ進化したと強調している。

今後の画像生成の進化は「プロンプト」をより高めていく方向なのだろうか? それとも出力をツールで編集したり、CanvaやPhotoshopのようなソフトウェアで編集するといった方向性なのだろうか?　ハタ氏に尋ねると、「どちらに進むかという決定はしていない。すべての選択肢を模索・探索している段階。ユーザーにとって最善の体験を提供できる形を選んでいきたい」と答えた。ただし、精細なプロンプト表現を作り上げるのではなく、自然な会話から意図した画像を共同作業で作るような想定をしているという。

■ 1週間で60%増加　日本でヒットしたChatGPT Images 2.0

OpenAIによれば、日本はローンチ以降、シンガポール、タイ、台湾と並び、世界的に見てもChatGPT Image 2.0が最も急速に成長している市場となっているという(28日時点)。22日からの1週間で、日本におけるChatGPT Images 2.0の利用は60%以上増加し、アジアの中でも特に高い成長を示しているという。

初期のバイラルトレンドとしては、「写真に対し、ポスカで書いたみたいに要素を注釈で紹介する」「パーソナルカラー診断」などが登場。また、さまざまなヘアスタイルやメイクを試す、スポーツやファンダムのポスター風のイメージ、商品マーケティングのコンセプトやモックアップを作るなどの画像生成が人気を集めているという。

プロンプト例

・ポスカで書いたみたいに派手に手書きで写真に写ってる要素を注釈して・白い手書き風のコメント
Ø 写真に写っている要素を観察し、それぞれに対して意味のある手描き注釈を追加してください。
【写ってるもの】ここに写真内のアイテムを記入（例：アイスティー、ドーナツ）
【描写ルール】
・白ペンで描いたような細めの手描き線
・一筆書き風でラフ、少し不均一
・オブジェクトの外周をなぞるようにアウトラインを追加
・矢印や点線で視線誘導をつくる
【テキストルール】
・日本語の手書き文字（ひらがな7割、やさしい漢字3割）
・短く、独り言のようなコメントにする
・トーンは「日記・ひとこと・感情寄り」【コメント生成ルール】
・飲み物 → 味・温度・気分（例：すっきり、やさしい甘さ）
・食べ物 → 食感・おいしさ（例：しっとり、最高）
・空間 → 雰囲気（例：落ち着く、いい時間）
・全体 → 一言まとめ（例：しあわせすぎる〜）【装飾】
・湯気、キラキラ、ハート、小さな顔文字などを控えめに追加・やりすぎず
「余白」を残す【仕上がり】
・インスタのストーリー風、雑誌のラフメモ風・おしゃれで力の抜けた雰囲気

プロンプト例

このポートレートを使って、パーソナルカラー診断のイメージを作成してください。被写体にどの色の服が最も似合うかが分かるように、色ごとの服を横に並べて比較表示してください。ビジュアル重視で、テキストは短いラベルのみとし、段落は使用しないでください。すべてのテキストは日本語で表示し、英語は一切使用しないでください。

Impress Watch,臼田勤哉

画像生成のパラダイムシフト 「ChatGPT Image 2.0」の進化が狙うもの（Impress Watch）

画像生成のパラダイムシフト「ChatGPT Image 2.0」の進化が狙うもの（Impress Watch）