Google Colab でImagic を使ってみる


テキストと画像1枚で高精細な画像編集を実現する「Imagic」とは!?

●テキストと入力画像1枚のみ、テキストに沿った高精細な画像編集を実現

●2つのテキストのEmbeddingを線形補間し、2つの情報を合成することでDiffusion Modelによる高精細な編集を実現

●様々な種類の画像編集(ポーズの変更、複数のオブジェクトの編集など)に適用可能、高い品質と汎用性を実現

 


Imagic

拡散モデルを使って、画像をプロンプトで編集してくれます。

Google のColab 環境とHugging Faceでお試しできます。Colab Pro の場合、GPU はTesla T4 (16GB)を標準で使えます。

Colab とHugging Face のアカウントやアクセストークンについてはこのページ参照

ベースになるコードはImagic_Stable_Diffusion.ipynb、ほぼそのまんまです。


Colab でGPUをアサインして、割当・接続・初期化を実行します。

必要な要件をインストール

トークンを使ってHugging Face へログイン

事前にコンパイルされたWheelでxformers をインストール

%pip install -q https://github.com/metrolobo/xformers_wheels/releases/download/1d31a3ac_various_6/xformers-0.0.14.dev0-cp37-cp37m-linux_x86_64.whl

 

Google Drive へ接続してセッティング実行

プロンプトは「走る人(A running man.)」にします。

Fine Tuning 用に人の画像をアップロード、この人を走らせてみます。

 

train_Imagic.pyでFine Tuning 実行(そこそこ時間がかかります)

AUTOMATIC1111みたいなWebインターフェースで使うために、重みをチェックポイントへ変換

!wget -q https://github.com/ShivamShrirao/diffusers/raw/main/scripts/convert_diffusers_to_original_stable_diffusion.py

 

変換実行

推論実行

再現性のためにここにランダム シードを設定

イメージ作成を実行

イメージ作成のためにGradioを使ったUIを実行

こんな感じ。なぜかショートパンツにサングラスで背景も描かれています。

 

こういうイメージも生成されました、人物が複数、中には女性もいます。

 


 

Be the first to comment

Leave a Reply

Your email address will not be published.


*