2023年のトレンドワードにも選出された生成AI(ジェネレーティブAI)。
その中でも「画像生成AI」の進化速度は凄まじく、現在ではほとんど現実の人間と区別がつかないような画像を数秒で生成できる段階に突入しています。
その中でも今回は、話題の画像生成AI「Stable Diffusion」について紹介します。
Stable Diffusionの基本、ダウンロード方法、使い方、おすすめの拡張機能など、Stable Diffusionを使ったことがない初心者の方でもわかりやすく解説しているので、ぜひ最後までお付き合いください!
<メタバース相談室の最新情報をSNSでチェック!>
目次
|画像生成AIのStable Diffusionとは?
Stable Diffusion(ステーブルディフージョン)は、入力テキストを基に画像を生成する訓練済みのAIモデル(Diffusion Model)を搭載した最先端の画像生成AIです。
深層学習モデルを利用して、与えられたテキストから具体的な画像を作り出します。
現在ではStable Diffusionの他にも、DALL-E、Midjourney、Artbreederなど多くの画像生成AIがリリースされています。
これらはそれぞれ異なるアプローチやアルゴリズムを採用しており、生成される画像のスタイルや品質、利用の容易さなどに差があります。
Stable Diffusionはこれらの画像生成AIと比較して、特にオープンソースである点が大きな利点です。
さらに、高度な画像生成能力を持ちながらも比較的低いハードウェア要件で動作するため、ハイスペックはPCを持っていなくても高品質な画像が生成できます。
Stable Diffusionではこんな画像が生成できる
現在では数多くの画像生成AIがリリースされていますが、各画像生成AIではそれぞれ生成される画像に若干の特徴があります。
とはいえ、言葉で説明するのも難しいので、実際にStable Diffusionではどんな画像が生成できるのか見てみましょう。
天才物理学者「アルバート・アインシュタイン」
こちらはStable Diffusionに「Genius physicist Albert Einstein.(天才物理学者アルバート・アインシュタイン)」というテキストを入力して生成したAI画像です。
シワの質感や少々ぼやける部分は確認されますが、それでもしっかりとアインシュタインの特徴は捉えています。
日本アニメの女の子
こちらはStable Diffusionに「Japanese anime, girl.(日本のアニメの女の子)」というテキストを入力して生成した画像です。
帯や着物に若干の違和感は残りますが、確かにそれらしい画像が生成されています。
拡張機能や専用ブラウザを使用しなければ精度はそこまで高くない
このように、Stable Diffusionではテキストを入力するだけで様々な画像を生成できます。
しかし、ご覧いただいたようにどの画像にも若干の「違和感」が感じられるのではないでしょうか?
これをさらに高精度な画像にするためには、拡張機能や専用ブラウザを使用しなければなりません。(※詳細は後述)
また、自分の理想に近づけていくためには、自分でAIに正しい学習をさせてアウトプットの方向性を固定していく必要があります。
そのため、画像生成AIでも使う人によってかなりの差異がある点にご注意ください。
ちなみに、使い慣れた方が使用するとこんな画像も生成できます。
上記は「LoRA(ローラ)」という学習モデルを使った画像になりますが、最近このような画像をネット広告などで見かける人も多いのではないでしょうか。
ここまでくると、はっきりと細部を確認しないと現実の人間と区別するのが難しいです。
このように、Stable Diffusionは既に実用段階にまで発展している画像生成AIです。
スマホでも使える?対応プラットフォームについて
Stable Diffusionは、多様なプラットフォームで利用可能です。
Apple製デバイスでは、Apple Siliconを搭載したmacOS Ventura 13.1 Beta 4とiOSおよびiPadOS 16.2 Beta 4でローカル実行がサポートされています。
WindowsとLinuxユーザーも、適切なソフトウェア環境をセットアップすることでPC上でStable Diffusionを使用できます。
加えて、Androidデバイス用のアプリケーションも存在し、Google Playを通じてアクセス可能です。
無料で利用可能だが使用するプラットフォームによっては費用がかかる
Stable Diffusionは基本的に無料で利用可能な画像生成AIですが、その使用方法や利用するプラットフォームによっては費用が発生する点には気をつけましょう。
例えば、Dream Studioはアカウント作成により200枚まで無料で画像生成が可能ですが、それ以上利用する場合は有料となります。
Mage.spaceやStable Diffusion Onlineなど、完全無料で利用できるサービスもありますが、特定の機能やモデルの使用には制限があるか、有料プランへの加入が必要な場合があります。
利用するプラットフォームやサービスによって料金プランが異なるため、具体的な使用方法を決める際にはそれぞれのサービスの詳細を確認することが重要です。
商用利用は可能だが規制が強まっている点には注意!
Stable Diffusionで生成された画像は基本的には商用利用が可能ですが、利用するモデルや画像によっては制限があるため注意が必要です。
特に以下の点に留意する必要があります。
商用利用不可のモデルの使用
特定のモデルは商用利用が禁止されているため、商用プロジェクトで使用する前には、そのモデルのライセンスを確認してください
Loraで学習させたモデルの使用
「Lora」というツールを使って特定のキャラクターや画像スタイルを学習させたモデルは、その学習元の著作権に影響されるため商用利用が制限される可能性が高いです。
商用利用不可の画像を読み込んだ場合
img2img機能を使用して商用利用不可の画像を読み込むと、生成された画像も商用利用不可になる可能性があります。
また、AIに関する規制は世界的に厳しくなりつつある現状です。
例えば、2024年3月には欧州で世界初となる人工知能(AI)の規制法案が可決されています。2026年度から本格的に実施される見込みですが、違反者には甚大な罰金が課せられます。
画像生成AIも例外ではなく、今後の規制次第では商用利用ができなくなる可能性も考えられるでしょう。
そのため、最新のAI規制に関するニュースには常に目を光らせておいてください。
|Stable Diffusionのダウンロード方法と使い方
ここからは、Stable Diffusionのダウンロード方法と使い方についてみていきましょう。
①Hugging FaceなどのWebサービスで使うのがおすすめ
Stable Diffusionの使い方は以下の2通りです。
- Webサービスを介して使用する
- 自身のPCにStable Diffusionをダウンロードしてプログラムを構築
2の使い方に関してはプログラミングの知識がある方以外はおすすめではありません。
1の使い方は誰でも簡単に使えるのでおすすめです。また、Stable Diffusionを現状で使えるWebサービスは以下の通りです。
<Stable Diffusionを使えるWebサービス>
- Stable Diffusion Online(公式):公式デモ版でアカウント登録不要で利用可能
- DreamStudio(公式):公式が開発したツールで200クレジット(約200枚程度)まで無料
- Hugging Face:AIや自然言語処理領域に特化したコミュニティ
- Mage.space:GoogleアカウントやTwitterアカウントでログイン可能
- SeaArt:日本語のプロンプト入力に対応
- Leonardo.AI:画像加工できる「AI Canvas」機能が特徴で、1日150クレジットまで無料
なお、以降の手順では「Hugging Face」を例として紹介していきます。
②Hugging Faceの検索フォームで「Stability AI」と検索
まずはHugging Faceの検索フォームで「Stability AI」と検索しましょう。
すると上記画像のように、さまざまな学習モデルが表示されます。
ただし、1200以上の学習モデルが表示されるためソート(並べ替え)を行いましょう。
ソートをクリックすると「Most Likes(最も使用されているモデル)」という項目が出てくるのでクリックしましょう。
すると上記画像のような「Stable Diffusion 2-1」というモデルが出てくるので、そちらをクリックしてください。ちなみにこれが「デモ版」です。
他のモデルでも画像生成自体は可能ですが、それぞれ学習させているデータが異なるので仕上がりにかなり違いがあります。
③プロンプトの入力
以下のWebページに遷移したら実際にプロンプトを入力してみましょう。
なお、デモ版ではプロンプトの入力は英語テキストのみです。
お試しで画像を生成するなら画面下部に「Examples」というリストがあるので、そちらをクリックすれば画像が生成されます。
また、プロンプト入力の下に表示されている「negative prompt(ネガティブプロンプト)」というのは「削除したい項目」のことです。
ネガティブプロンプトを使用して画像の細部を調整していくイメージです。
④気に入った画像が生成されたらダウンロード
上記の操作が終了すれば、あとは数十秒経てば画像が生成されるので右クリックを押して画像をダウンロード(保存)しましょう。
画像が気に入らなければ、再度細部を調整して自分の納得のいくまで試すことも可能です。
日本語版もリリースされている
なお、Stable Diffusionのデモ版では英語テキストのみにしか対応していませんが、検索フォームで「Stability AI Japanese」と入力することで日本語対応モデルも検索可能です。
日本語対応モデルの数は少ないですが、わざわざ翻訳機能などを使って英訳しなくていい分、使い勝手は割と快適です。
英語が理解できる人は、英文でテキストを入力した方が正確に指示を出せるので、英語のままでも構いません。
|Stable Diffusionで知っておきたい拡張機能
先述したように、Stable Diffusionをさらに快適に・正確に扱うためにはいくつかの拡張機能が存在します。
ここでは、代表的な拡張機能についていくつかみていきましょう。
WebUIを使えばプログラミングが不要
Stable Diffusion Web UIは、ブラウザを通じて画像生成ができるWebアプリケーションで、プログラミングの知識がなくても簡単に画像を生成できます。
例えば、テキストから画像を生成する機能(txt2img)、既存の画像を変更する機能(img2img)、画像のアップスケール、さまざまな拡張機能のサポートを利用可能です。
インストール方法は比較的シンプルで、まずGitHubから必要なファイルをダウンロードし、適当な場所に展開します。
次に、画像生成に必要なモデルファイルをダウンロードして、指定されたフォルダに移動させます。
最後に、”run.bat”ファイルを実行してWeb UIを起動するだけでOKです。
また、「Forge」という新しいバージョンでは、SDXLの高速化やさまざまな機能が追加されており、ControlNetやFreeU、HyperTile、SVD(Stable Video Diffusion)などの機能が追加されました。
Stable Diffusion Web UIを使ってみる!
追加学習モデル「LoRA」でデザインのバリエーションを増やす
「LoRA(Low-Rank Adaptation)」はStable Diffusionにおける追加学習モデルで、AIの生成結果を特定の方向性やスタイルに調整することが可能です。
これにより、自分の好みに合わせて画像生成の結果を微調整できるようになります。
例えば、特定のキャラクターの再現度を高めたり、特有のポーズや背景を生成することができるようになります 。
LoRAのファイルは、CivitaiやHugging Faceといったプラットフォームからダウンロード可能です。
Civitaiでは、生成画像のサムネイルが表示されるため、具体的な効果を視覚的に確認しやすいです。
一方、Hugging Faceではモデル名やLoRA名をテキストで検索する形式になっています。
最新版のStable Diffusion XL(SDXL)でさらに精度を向上
Stable Diffusion XL (SDXL)は、Stability AIによって開発された最新の画像生成AIモデルです。
従来のStable Diffusionモデルよりも大幅に画質が向上しており、2023年にベータ版として初めて発表された後、正式版がリリースされました。
SDXLの主な特徴は以下の通りです。
- モデルのパラメータ数が大幅に増加して性能が向上
- 低解像度の学習データを使用せず、高解像度の画像のみを学習に使用
- baseモデルとrefinerモデルの2種類があり、2段階の処理により高画質な画像を生成することが可能
- 従来のStable Diffusionが苦手としていた手やテキストも比較的きれいに生成できるようになった
SDXLは、高画質な画像生成に優れており、画風の幅が広く、さまざまなスタイルの画像を生成することができるというメリットがあります。
しかし、モデルのサイズが大きいため、より多くのVRAMを消費するというデメリットもある点には注意しておきましょう。
Stable Diffusion XL(SDXL)を使ってみる!
|【Q&A】Stable Diffusionに関するよくある質問
最後に、Stable Diffusionに関するよくある質問についてまとめました。
Q&A形式で解説するので、すぐに疑問を解消したい方はぜひ参考にしてください。
Q1.Stable Diffusionの著作権はどうなっているのですか?
Stable Diffusionで生成された画像は基本的に商用利用が可能ですが、使用するモデルや生成内容によっては商用利用できない場合があります。
特に、商用利用不可のモデルを使用した場合や、商用利用不可の画像を元に画像を生成した場合には注意が必要です。
なお、著作権問題に関しては生成データの元となる情報にも注意を払う必要があります。
Q2.Stable Diffusionは安全ですか?
Stable Diffusionは基本的には安全なツールですが、使用する際にはいくつかの注意点があります。
特に、生成した画像の内容や、どのように使用するかによっては、著作権やプライバシーの問題が生じる可能性があります。
また、生成した画像に不適切な内容が含まれないように注意が必要です。
Q3.Stable Diffusionは無料で使えますか?
Stable Diffusionは基本的に無料で使用できます。
ソースコードやモデルなどが公開されており、誰でもアクセスして利用することが可能です。
ただし、高品質の画像を生成するためには、それなりのコンピュータスペックが必要になる場合があります。
また、特定の機能や拡張モデルを使用する際には、別途料金が必要になるサービスもありますので、利用する際にはそれぞれの条件を確認することが重要です。
Q4.Stable Diffusionのデフォルトモデルはなんですか?
Stable Diffusionのデフォルトモデルは、AIが学習に使用するデータセットを指します。
このモデルを活用することで、ユーザーは自分の好みに合ったAI画像を生成しやすくなります。
例えば、アニメ系イラストのモデルを使用すれば、細かなスタイルや雰囲気を入力しなくても、クオリティの高いアニメ系イラストを生成することができます。
また、既存のモデルデータを組み合わせて新しいモデルデータを作成することも可能です。
Q5.Stable DiffusionのSeed値とはなんですか?
Stable DiffusionのSeed値は、画像生成時に割り当てられるランダムな数値で、特定の画像生成プロセスを再現可能にします。
同じSeed値を使用することで、条件を同じにしても同様の画像を生成でき、細かな変更を加える際に便利です。
これにより、特定の表情、ポーズ、服装の微調整が可能になり、クリエイティブな作業の幅が広がります。
|Stable Diffusionを使って自分の好きな画像を生成してみよう!
本記事では、Stable Diffusionの基本から応用、そして役立つ拡張機能まで、注目の画像生成AIに関する幅広い情報を解説しました。
Stable Diffusionは、高度なAI技術を用いてユーザーの入力したプロンプトに基づいて画像を生成するツールです。
多様なプラットフォームで利用可能であり、無料でアクセスできる一方で、より高度な機能を求めるユーザーのための有料サブスクリプションも提供しています。
商用利用の可能性から動画生成に至るまで、Stable Diffusionは多くの可能性を秘めていますが、AIに関する規制強化の動きが全世界的に広まっていることもお忘れなく。
メタバース相談室では、今後もこういった最新技術やAIに関する情報を随時発信していきます。
TwitterやYouTubeなどでも情報を発信しているので、ぜひフォローやチャンネル登録して頂けますと幸いです!
<メタバース相談室の最新情報をSNSでチェック!>