ニュース

OpenAI、「ChatGPT Images 2.0」をリリース

 OpenAIは4月21日、「ChatGPT Images 2.0」をリリースした。思考機能を備えた初の画像モデルとなっており、多言語に対応し、ChatGPT、CodexおよびAPIのすべてのユーザーが利用可能。

 今回のバージョンでは、細かな指示に、オブジェクトを理解して関連付けて配置し、テキストをレンダリングすることが可能となった。さまざまなアスペクト比に対応して画像を生成でき、拡張された視覚知識と世界に関する知識を活用し不足部分を補完死画像を生成する。

 ChatGPTで思考型またはプロモデルを選択すると、Webから情報を検索し複数の異なる画像を作成し提案。思考機能により、特に正確性、最新情報、一貫性などを考慮し、自身の出力を二重チェックにかけることもできる。

ユーザーが「draw me a dog」と入力すると、ChatGPTはアスキーアートの犬を描画している。前面のウィンドウはChatGPTだが、デスクトップはターミナルなど、たくさんのランダムなウィンドウが開いていてかなりとっちらかっている。これらはすべてバックグラウンドにある

 思考機能で複雑な作業が行なえるようになったことで、画像モデルを破綻させがちな細かな要素(小さなテキスト、アイコン、UI要素、密集した構図、微妙なスタイルの制約など)をまとめあげ、最大2K解像度でレンダリング。漠然としたイメージではなく、実際に使用可能なクオリティで仕上げてくれる。

 同社は、英語やその他のラテン文字言語では比較的安定した結果を示しているが、それ以外の言語では精度が低下していると認めながら、「ChatGPT Images 2.0」では日本語、韓国語、中国語、ヒンディー語、ベンガル語といった非ラテン語テキストのレンダリングにおける性能がかなり向上しているとしており、ポスターや説明文から図表や漫画まで生成できるとしている。

日本的な漫画の画像生成も行なうことができるという
文字や文章を美しく見せるデザイン手法として知られるタイポグラフィを駆使した画像も生成できるようだ