AI指示文・プロンプトなら 教えてAI byGMO

ChatGPT

日本語も扱えて漫画も描けるChatGPTとSoraの4oイメージ生成機能の実力

-

-

  • facebook
  • line
  • twitter
日本語も扱えて漫画も描けるChatGPTとSoraの4oイメージ生成機能の実力
アイサカ創太(AIsaka Souta)AIライター

アイサカ創太(AIsaka Souta)AIライター

こんにちは、相坂ソウタです。AIやテクノロジーの話題を、できるだけ身近に感じてもらえるよう工夫しながら記事を書いています。今は「人とAIが協力してつくる未来」にワクワクしながら執筆中。コーヒーとガジェット巡りが大好きです。

日本語も扱えて、漫画も描けるChatGPTとSoraの4oイメージ生成機能がすごい

 ChatGPTは従来もDALL-Eという別の画像生成AIを使って画像を生成することはできました。とは言え、プロンプトの受け渡しが必要ですし、Midjourneyといった他の生成AIに比べると性能がイマイチでした。

 3月26日、「4o イメージ生成」機能がリリースされました。ChatGPT 4oでネイティブに画像を生成できるのです。今回は、OpenAIの発表の内容をまとめ、後半では実際に生成した画像をご紹介します。

 動画では、オープンエーアイのサム・アルトマン氏、ガブリエル・ゴー氏、プラフラ・ダリワール氏、ルー・リウ氏、アラン・ジャブリ氏、そしてメンチャオ・ジョン氏が4oイメージ生成の解説とデモを行ってくれました。

 これまで「文字とコードのやりとり」が主流だったAIが、一気に画像表現まで網羅できるようになったのは驚きです。あえて少し時間をかけても、高精度かつ滑らかなビジュアルを生成できるメリットは大きく、実用化のレベルに達しています。英語だけでなく多言語にも対応し、ユーザーがイラストや写真を素材として活用できる点は革新的です。

OpenAIの4oイメージ生成機能のリリース

OpenAIはChatGPTとSoraの4oイメージ生成をリリースしました。

革新的な"ネイティブ"4oイメージ生成とは

 4oイメージ生成とは、ChatGPTとSoraに統合された最新の画像生成技術です。大規模言語モデルとして注目を浴びてきたGPTシリーズが、ついに画像を扱えるようになったというだけでもインパクトは大きいのですが、特筆すべきは「テキストや画像、音声などを一元的に理解し、出力するマルチモーダル性」にあります。これまではテキスト処理と画像処理が分離していて、描画可能な文字が制限されたり、スタイル指定の自由度が低かったりする課題が残っていました。それに対して4oモデルは、緻密なテキスト入りのデザインや複雑な指示にも柔軟に応えてくれます。

 動画内のデモでは、撮影した自撮り画像をアニメ風に変換し、そこからさらにミーム画像を作り上げる様子が披露されました。ポイントは、初回の画像生成で終わるのではなく、「これをもう少しこうしてほしい」とユーザーが追加入力するたびに、モデルが前のコンテキストを踏まえて連続的に絵柄を修正できることです。

 例えば、「背景を透明にしてカードのように仕上げたい」や「手前のキャラクターのポーズを少し変えたい」などと指示すれば、短時間で要望通りの結果を出力してくれます。これは単なる「芸術性のある画像を生成する」だけでなく、「ユーザーがビジュアルの細部を制作指示しながら完成品を作り上げる」という共同作業に近い感覚をもたらしてくれるのです。

自撮り画像をアニメ調に変換するデモ

デモでは自撮り画像をアニメ調にしていました。

 4oモデルの最大の特徴は、文字情報の再現力が格段に高まった点です。既存の画像生成技術では文字が崩れたり誤字が生じたりすることが珍しくありませんでした。その点、4oイメージ生成では、特定のテキストや数字を正しく表示することができます。

 たとえば、モデル名やサイズ表記、説明文などを正確に反映できるため、広告やプレゼン資料、あるいは教育用の図解など、多彩なビジネスシーンでの活用に期待が寄せられています。実際、デモ動画ではマンガのコマ割りに専門用語やジョークを混ぜ込んだ吹き出しを正しく挿入しており、言葉とビジュアルをシームレスに扱える強みが伝わってきました。

 ただし、高品質な画像を描き出すには相応の処理時間が必要になります。動画の中でも「待ち時間は長めだが、その価値は十分にある」と語られていました。現時点では一度に得られる画像の解像度やサイズにもある程度の制限がありますが、オプション設定や今後のモデル高速化によって、さらに利便性は増していくでしょう。

画像内の文字生成の例

画像内の文字は生成されたものです。

天秤AI byGMO

今すぐ最大6つのAIを比較検証して、最適なモデルを見つけよう!

無料で天秤AI by GMOを試す

高度なテキスト描画と多言語対応が拓く新たな創造領域

 4oイメージ生成は、単に「見た目がきれい」というだけではありません。細かい文字や記号を含むデザインや、複雑なレイアウトが要求されるプロジェクトでも役立ちます。たとえばデモでも示されたように、理論物理学のトピックをマンガ形式で解説するページを一発で生成することが可能です。物理用語や数式の断片、吹き出しの会話文が全て正しい位置に配置され、しかもカラフルなマンガとして仕上がるのが印象的でした。通常の画像生成AIだと、漢字や英数字が間違って表現されがちなため、この正確さは大きなアドバンテージになるでしょう。

 日本のユーザーとしては多言語対応も見逃せません。日本語の文章を生成AIによるデザインの要素として組み込めるのは画期的です。これは企業が世界各国向けに広告素材をローカライズする際や、多言語の学習教材を一括で作成する場合に活躍してくれるでしょう。

 4oイメージ生成は、ビジネスや教育の場だけでなく、エンターテインメントや個人の創作活動にも大きな影響を与えます。特に注目を集めているのはミーム文化との融合です。OpenAIの社内では、今回のモデルを試用し始めた初期からミーム画像の大量生成が行われていたようで、その自由度と完成度の高さは想像以上とのことです。従来の生成系AIよりも文字が歪みづらく、カートゥーン風の誇張も得意としているので、SNS映えする楽しい画像を量産しやすいのはもちろん、ジョークや風刺を絡めた高度な表現にも対応できるでしょう。

 ただし、クリエイティブの自由度が高まるということは、一方で倫理的・社会的な問題も浮上します。OpenAIは「利用者が望まない限り不快な表現を生成しにくい設定を心がけつつ、クリエイティブな表現はできる限り保証したい」としていますが、その境界線をどこに引くかは今後も議論が続くでしょう。

 過度に暴力的・差別的なコンテンツや、権利者の許可なくキャラクターを流用する事例も起こり得ます。そういったケースに対しては、運営側のガイドラインや技術的なフィルタリングが強化されるものと思われますが、ユーザー側のリテラシーも同時に求められます。

 しかし総合的に考えると、4oイメージ生成が解放する創作の敷居の低さやスピード感は、間違いなく大きなインパクトを与えることは間違いありません。

ビジネスクリエイティブでの活用イメージ

ビジネスのクリエイティブとして活用できる画像生成機能は社会に大きなインパクトを与えるでしょう。

実際に4oイメージ生成で画像を生成してみた

 漫画はぜひ描いてみたいところです。まずはセリフなしで、2コマ漫画を描いてもらいました。シーン別に簡単に指示を入れただけなのですが、驚くほど想定通りの漫画が生成されました。一般的な画像生成AIだと、日本人という単語に影響を受けやすいのですが、その点も問題なしで驚きました。

2コマ漫画の生成例

■ プロンプト

2コマ漫画を描いて下さい。
1コマ目は、日本人のパパがロゴで犬を組み立てて赤ちゃんに渡す。
2コマ目は、赤ちゃんはその犬をすぐにばらばらにして楽しむが、パパは残念そう。

 次に、4コマ漫画を描いてもらいました。織田信長が敦盛を舞って転んで部下が笑いをこらえる、というネタです。ちょっと出力に不満があったので追加で指示をしたところ、きちんと対応してくれました。タイトルも日本語で入れてみましたが、問題なく表示されました。社内報に載せる漫画くらいであれば、担当者が1分で作成できそうです。

4コマ漫画の生成と修正例

アウトプットに対してチャットで修正指示を出せます。

 OpenAIはXで4oイメージ生成の投稿をしましたが、添付されている画像に驚きました。搭乗券を手に持っているのですが、そこには4oイメージ生成の説明がそれっぽく正確に記載されているのです。フォントの崩れもありません。

 そこで、ちょっとアレンジして日本語を表示させてみました。ただ、ちょっと日本語のフォントがきちんと表示できていないところがありました。立体的な表現や斜めに表記するのはまだ苦手のようです。

搭乗券に日本語テキストを挿入した例

■ プロンプト

空港のラウンジで、コーヒーを飲んでいる。雑多な雰囲気。窓の外には空港の景色。目の前のテーブルには飛行機の搭乗チケットが置いてある。

#チケットに記載されているテキスト

  • 1行目はタイトル:搭乗券
  • 2行目は大きく:4o イメージ生成
  • 3行目はサブタイトル:ChatGPTとSoraで使えます
  • 4行目は説明文:日本語も正確に描写できるのでビジネスでの活用シーンが広がります。
  • 右側の半券には、「3月25日11時リリース」

 他の画像もいろいろ試してみました。日本語でも短い単語や水平に描写するのであれば、そこそこ表示できます。また、DALL-Eで描写していた時のように、アスペクト比は日本語で指定することができます。

道路標識に日本語を表示した例

■ プロンプト

田舎にあるような分岐の道に立っている標識の写真。右側は「外注」、左側は「内製」と表示されている。標識の下には柴犬が座っている。

ボクシングの試合の画像

■ プロンプト

ボクシングの試合をしている横長の写真。青コーナーのパンツの後ろに「ビクトリー」と書いてある。

アップロード画像を組み合わせた色鉛筆画

■ プロンプト

写真の人物が食材が乗っているトレイを持っている色鉛筆画を横長画像で描いてください。

※+食材の山の写真と筆者のプロフィール写真をアップロード

 日本語も扱えて、漫画も描けるChatGPTとSoraの4oイメージ生成機能の紹介になります。登場したてでこのクオリティであれば、今後のビジネスシーンにおけるクリエイティブに大きな影響を与えることは間違いありません。ぜひチェックしておくことをお勧めします。


この記事の監修

柳谷智宣(Yanagiya Tomonori)監修

柳谷智宣(Yanagiya Tomonori)監修

ITライターとして1998年から活動し、2022年からはAI領域に注力。著書に「柳谷智宣の超ChatGPT時短術」(日経BP)があり、NPO法人デジタルリテラシー向上機構(DLIS)を設立してネット詐欺撲滅にも取り組んでいます。第4次AIブームは日本の経済復活の一助になると考え、生成AI技術の活用法を中心に、初級者向けの情報発信を行っています。

比較検索なら 天秤AI byGMO天秤AI by GMOイメージ

最新のAIが勢ぞろい! 天秤AI by GMOなら、最大6つのAIを同時に試せる!

無料天秤AI by GMOを試す