Google Colab にStable Diffusionを用いた画像生成環境をpipで構築

オープンソースで開発されているPythonパッケージ「ImaginAIry」を使ってみます。

ImaginAIryは画像生成や編集をワンコマンドで実行できます。

この画像生成環境をpipで構築する方法はローカルにStable Diffusion 環境を構築するのに便利ですが、ここではGoogle Colab に構築してみます。

Google Colaboratoryを開きます。

ファイルー＞ノートブックを新規作成
編集ー＞ノートブックを設定ー＞ハードウェアアクセラレータでGPUを指定して保存

新規のセルで以下を実行して接続・初期化し、割り当てられたGPUを確認してみます。

!nvidia-smi

1	!nvidia-smi

パイプラインで必要な環境を作ります。

pip install imaginairy

1	pip install imaginairy

最後にERRORが出ていますが気にしません。

画像生成ならimagineコマンドに続けて、生成用プロンプトを記述して実行するだけです。

３つの画像を生成してみます。サッカー選手とサングラスをしたワンちゃんと少女です。

!imagine "a soccer player" "a dog with sunglasses" "a cute girl"

1	!imagine "a soccer player" "a dog with sunglasses" "a cute girl"

Colabの環境では、/content/outputs/generatedフォルダー直下に、大体2分くらいで512×512の画像が3枚生成されます。

生成した画像をローカルにダウンロードして確認してみます。

例えば、上記で生成された少女の画像はフルパスで以下にあります。

/content/outputs/generated/000021_986290532_kdpmpp2m15_PS7.5_a_cute_girl_[generated].jpg

セルに以下を記述してダウンロードを実行します。

from google.colab import files
files.download('/content/outputs/generated/000021_986290532_kdpmpp2m15_PS7.5_a_cute_girl_[generated].jpg')

1 2	from google.colab import files files.download('/content/outputs/generated/000021_986290532_kdpmpp2m15_PS7.5_a_cute_girl_[generated].jpg')

以下のような画像が生成されていました。

では、画像を編集して「サングラスをかけさせて」みます。

!aimg edit /content/outputs/generated/000021_986290532_kdpmpp2m15_PS7.5_a_cute_girl_[generated].jpg "girl wearing sunglasses" --prompt-strength 5

1	!aimg edit /content/outputs/generated/000021_986290532_kdpmpp2m15_PS7.5_a_cute_girl_[generated].jpg "girl wearing sunglasses" --prompt-strength 5

こんな感じになります。

プロンプトはいろいろな表現が可能です。上記では、少女の状態を記述していますが、makeを使った他動詞の記述も可能です。

ChatGPT にも使われるこういうプロンプト・テキストは、数多くこなすことでどういう表現なら意向に近づけるか分かってくるような気がします。

ただ、プロンプト・テキストの進歩がはやければ呪文など必要なく、趣旨を伝えるための正確な文章を人間が生成できればAIはそのとおりの画像を正しく生成できるようになるのでしょうけど…。

参考までに他の２枚の画像はこんな感じです。

超解像

under construction

FRONT