進化を遂げる画像生成AI
急成長を続けるAIの世界の中でも著しい進化を遂げて一大潮流となっているのが画像生成AIの分野です。
「Stable Defusion」「Midjourny」など既に有力な画像生成AIツールがいくつも生まれ、地位を固めつつありますが、そうした状況を打ち破る様なポテンシャルを秘めたAIツールが台頭してきました。
オープンAIが提供している画像生成AI、DALL-E2の進化版として2023年10月に公開した「DALL-E3(ダリ・スリー)」です。
今回はDALL-E3の何が凄いのか、機能や使い方まで詳しく紹介します。
ChatGPTより早く公開されたDALL-E2
ChatGPTを世に送り出したオープンAIは、画像生成AIの開発にもいち早く取り組んでいました。
ChatGPTの公開よりも早い2022年年4月に研究者・専門家向けに提供が始まった画像生成AIが「DALL-E2(ダリ・ツー)」です。
同年7月には一般向けにベータ版も公開されています。
DALL-E2は単語や文章などテキストを打ち込むと画像を生成してくれるAIの先駆け的存在として高い評価を得ました。
ステーブル・ディフュージョンやミッドジャーニーの台頭
但し、画像生成AIの分野では続々とスタートアップが立ち上がり、優れたツールが次々に公開されます。
「ステーブル・ディフュージョン(Stable Diffusion)」や「ミッドジャーニー(Midjourny)」、「アドビ・ファイヤーフライ(AdobeFirefly)」など圧倒的な画像生成能力を持つツールが台頭して、相対的にDALL-E3の存在感は薄くなっていました。
そうした情勢の中で、2023年9月に公開されたのが「DALL-E3」です。
DALL-E3の特徴
DALL-E3は、オープンAIが開発した画像生成AIの最新バージョンとして発表されました。
2023年10月にはChatGPTの有料版に実装されています。
画像生成の能力はDALL-E2から大幅に上がっており、それは同じ指示をして画像を比べると一目瞭然です。
これまで画像生成AIで生成することが難しかったピクセルアートや漫画なども生成できます。
またDALL-E2と比べて長い文章での指示への理解力が大幅に上がりました。
細かいニュアンスや詳細を理解できるようになった事で、より忠実で正確な画像を作れます。
文字も生成できる
DALL-E3はこれまでの画像生成AIが苦手としていた生成する画像に文字を入れる能力にも優れています。
画像の中央に「Tokyo」という文字を組み込むといった指示は他の画像生成AIでは殆ど使い物にならなかったのですが、DALL-E3ではこの能力が飛躍的に上がっています。
まだ日本語や漢字は正しく表示されないこともあったりしますが、今後改善されていくと見られます。
ChatGPTに組み込まれた意味
ステーブル・ディフュージョンやミッドジャーニーらと決定的に違うのはDALL-E3がChatGPTやBingに組み込まれた事です。
ChatGPTと対話しながら画像を修正する事ができたり、ChatGPTに作らせた文章にあった画像を作らせるといった使い方が可能になったのです。
テキストから画像を作るだけでは無く、ChatGPTで会話しながら画像を欲しい形に変えて行くというのは他の画像生成AIには無いアプローチであり、画像生成ツールの開発の方向性に大きな影響を与えそうです。
DALL-E3の使い方
それではDALL-E3の始め方についてですが、DALL-E3には有料の方法と無料で利用する方法とがありますのでそれぞれ説明します。
ChatGPTでDALL-E3を使う(有料)
DALL-E3はChatGPTの有料プランである「ChatGPTプラス」に実装されました。
ChatGPTプラスの利用には月額20ドルの料金が掛かります。
有料プランの利用者であればDALL-E3を自由に利用する事ができます。
ChatGPTを開いて「ChatGPT4」に設定すると、DALL-E3が利用できるようになっています。
実際、ChatGPT4という表示の隣にある【∨】を押すと、ChatGPT4の直ぐ下に「with DALL-E…」と書かれています。
DALL-E3の使い方は直感的で簡単です。
ChatGPT4を選んだ状態で、例えば「空を飛ぶネコを描いて」といった形で指示をすればOKです。
空を飛ぶネコの画像を生成してくれます。
更に続けて「写真みたいにもっとリアルにして下さい」と指示すると、指示を受けて画像を作り直してくれます。
無料でDALL-E3を使う
一方、DALL-E3を無料で利用する方法もあります。
マイクロソフトの検測ポータル・サービス「Bing」の中にある「Bingイメージクリエイター」にもDALL-E3が実装されています。
BingでDALL-E3の機能を使うには、Microsoftアカウントでログインをする必要があります。
・マイクロソフトBingの公式ページにアクセスします。
・画面上部の【ログイン】ボタンを押します。
・マイクロソフトアカウントを入力します。
・パスワードを入力して【サインイン】ボタンを押します。
・サインインした画面上部の【チャット】を選びます。
・チャット画面の入力欄で、例えば「サーフィンをする女性の画像を作って」と指示しすると画像生成が始まります。
スマートフォンのBingの場合は、Microsoftアカウントでログインした後に、Bingイメージクリエイターを選んで、テキストで指示した後に【作成】ボタンを押します。
画像の著作権はどうなるのか
オープンAIの公式ホームページによれば、DALL-E3で作った画像の所有権はユーザーにあります。
商業利用や個人使用の際にオープンAIの許可は不要との事です。
但し有名人やキャラクターに似せた画像などは肖像権などを侵害するおそれがあります。
実際DALL-E3では有名なキャラクターの名称を入れて指示しても上手く生成されない様です。
まとめ
DALL-E3は同じ画像生成AIでも前バージョンのDALL-E2とは全く別モノのAIツールと言えるほど大きな進化を見せました。
何よりChatGPTあるいはBingと一体化して、会話形式で画像を作っていける。
文章と画像を一体で生成できるといった機能は革新的で、画像生成AIの開発に大きな影響を与えています。
何よりあらゆるイメージを具現化できるAIツールです。
とても楽しいものなので、是非一度触ってみて下さい。
最後までお読み頂き、ありがとうございました。
コメント