画像生成AIを利用したいがどのサービスを選ぶべきか迷っている方に向けた記事です。
各サービスの特徴と選び方を解説します。2024年5月に執筆し、今後のアップデートに応じて随時更新を行います。
はじめに
近年、画像生成AI技術は目覚ましい進化を遂げ、多くのサービスが市場に登場しています。昨年までの使用感の難しさが改善され、精度と速度が向上したサービスが増えています。いろいろなサービスがある中で、使いやすいサービスは何なのか調べていきたいと思います。今回の比較では、ChatGPT、Adobe Firefly、Stable Diffusionの三つのプラットフォームを取り上げます。
この比較を通じて、各画像生成AIの長所と短所を明らかにし、読者が自身の用途に最適なサービスを選べるようにします。
動作環境
動かす環境として、Stable Diffusionだけは自宅にあるデスクトップパソコンに構築してあるのでそちらで動かします。Stable Diffusionは時間をかければ、より高精細で高解像度の物ができますが、上限として1時間で生成された画像を扱います。又、パソコンのスペックによって生成時間は大きく異なります。以下に主なスペックを記載しておきます。
Intel Core i7-9700
RAM 16GB
RTX2070 super
画像生成時、Stable Diffusionはプロンプトを英単語で打たなければならないのですが、ChatGPT、Adobe Fireflyは日本語でも生成されます。今回公平性を保つために全て英語のプロンプトで画像生成します。
生成する画像として、一つ目に短いプロンプトで猫の画像を生成します。二つ目に比較的長いプロンプトで日本人(男性だとわかりにくいため、女性)を生成してもらいます。評価の主なポイントは、プロンプトのとおりに画像生成できているか、画像生成AIは人間の手をうまく表現できないので見分けるポイントです。
Stable Diffusion、ChatGPT、Adobe Fireflyの生成された画像の解像度はそれぞれ違います。Adobe Fireflyが高解像度で、その次にStable Diffusion、ChatGPTとなっています。これを加味したうえで判断します。
画像生成AI比較
短いプロンプトで生成した猫
(cat),cute,best quality,shore,reflective water,
左からChatGPT、Adobe Firefly Image2、左下Stable Diffusion、Adobe Firefly Image3と並んでいます。
ChatGPT
Adobe Firefly Image2
Stable Diffusion
Adobe Firefly Image3
生成時間
結果としてはChatGPT、Adobe Fireflyは対して生成速度の違いは出ず、30秒ほどで生成されます。一方、Stable Diffusionの解像度を1080×1080で生成したところ約57分かかりました。
品質
何回も生成しましたがStable Diffusion、Firefly Image2は品質が良いと思います。しかし、Stable Diffusionは水面に写る猫が失敗している画像しか生成されなかったです。全体的なクオリティとしてはFirefly Image2が良いと思います。
Firefly Image3は精細に描かれているわけでもなく、Firefly Image2よりも全体的に劣っている感じがしました。何枚か生成しましたが、遠近感がおかしい画像が多かったです。
残念ながらChatGPTはプロンプトに沿った生成は難しいです。猫自体もリアリティを感じるわけでもなく、どちらかというとアニメ調のような感じがします。
比較的長い日本女性プロンプト
(japanese),night,midnight,beautiful young woman,face close up,(realistic),in the dark,in living room,moody lighting,orange|red hue,long night gown,cowboy shot,(huge filesize),cinematic film still,early teen,child,beautiful,long hair,natural skin,outdoors,snow,high resolution,absolutely resolution,rubble_ruins,(best quality, masterpiece:1.2),highres,beauty,detailed beautiful eyes,detailed face,(best shadow),(normal physical expression, perfect anatomy:1.7),(cinematic lighting),
左からChatGPT、Adobe Firefly Image2、左下Stable Diffusion、Adobe Firefly Image3と並んでいます。
ChatGPT
Adobe Firefly Image2
Stable Diffusion
Adobe Firefly Image3
生成時間
結果としてはChatGPT、Adobe Fireflyは対して生成速度の違いは出ず、30秒ほどで生成されます。一方、Stable Diffusionの解像度を1080×1080で生成したところ約37分かかりました。
品質
解像度が高いのは圧倒的にStable Diffusionだと思います。プロンプト通りに生成されていて、影の描写もいい感じに表現されています。一番大事な日本人ぽさでいうとFirefly Image2に負けてしまいますが、Firefly Image2の画像で若い日本人女性が生成されたのはこの1枚だけなので奇跡に近い感じがします。一方、Stable Diffusionはプロンプト通りのものが多かったので、どれにするか選ぶことができました。
ChatGPTはその次に品質が良いと思います。比較的プロンプト通りに生成されていますが、なぜかプロンプトにはない帽子が生成されています。
Adobe Fireflyはどちらともプロンプト通りとは言えません。Firefly Image3に関しては、日本人の画像は生成されず、プロンプトに少しかすっているぐらいの物しかできませんでした。
全体的な感想
猫などの比較的種類が限定されているものであればChatGPT、Adobe Fireflyでも生成できますが、Stable Diffusion以外は人種による特徴を生成するのは苦手な気がします。
驚きだったのは、Adobe FireflyのFirefly Image2とFirefly Image3についてです。Firefly Image3は先行アクセスのような形ではありましたが、Firefly Image2よりも品質の向上している点があると思っていたのですが、全体的にFirefly Image2のほうが品質が上でした。
まだまだ画像生成に関しては、Stable Diffusionの方が上だと感じました。画像生成の速さに関しては、パソコンの性能によるものが大きいので高性能パソコンがあればもっと短時間で高解像度の画像ができると思います。
商用利用、著作権に関して触れると、どのサービスも著作権は制作者本人にあるため自由に使うことはできますが、Stable Diffusionはモデルによっては商用利用できないなどの制限があるため、使う場合は注意が必要です。
コメント
画像生成AIについて無学だったため、サービスによってこれほど性能に違いが出るとは思っていなかった。興味深い内容だった。
ChatGPT、Adobe Firefly、Stable Diffusionの三つのプラットフォームで生成速度に差があることを知り驚きました。
質や生成速度の比較は非常に参考になる内容であると感じた。
どの生成AIを使うかの基準の1つとなるブログであると感じた。
生成速度がそこまで違うのかと驚きました。
どの点を比較して使う基準にすればいいかが分かりやすいと感じました
生成速度や品質が分かりやすくまとまっていた。画像生成する際は参考にしたいと思います。
画像生成AIでここまでリアルな画像が作れることにとても驚きました。
30「秒」と57「分」という、誤植にも思えてしまいそうな時間の差に驚きました。
生成AIの比較として、処理能力・品質・処理速度など、あらゆる面での比較から自分がどんな画像を生成させたいかを、ある程度考えたうえでどのソフトを使えばいいかが分かる記事でした。
ChatGPTやGeminiなどの生成AIしか使っていないため画像生成AIがどのように動くなど画像生成AIでもレスポンスの遅さなど差が顕著に表れるのはどの生成AIも同じだと思った。