Scribble at 2023-06-29 12:09:19 Last modified: 2023-06-29 12:15:00
Stable Diffusion を自宅のマシンに入れて色々と仕事でも使い始めている。とは言っても、いまのところはサイトのロゴ・マークを作らせてから、あらためて画像検索して似たようなロゴ・マークがないかチェックし直してから使うといった、簡単なデザインの道具として使ったり、社内研修で「画像生成AIのリスク」について解説するために、あえてキアヌ・リーブスの LoRA(特定の人物の画像をトレーニングして作成したモデルのこと)を使って、京都で舞を踊っているキアヌ・リーブスとか実在しない画像を作って見せたりしている。
LoRA は、実際に版権物のキャラクターの画像を使って公開している困った事例も多いわけだが、逆に LoRA を作って二次創作に使ってくれと著作権者自身が何百枚のイラストをトレーニング用として公開している場合もある。そして、上記のイラストは僕自身の写真を20枚ほど使って作成した LoRA を読み込んで、そのままだと元のモデル・データに引っ張られて若者や萌えキャラになってしまうので、年齢相応のイラストが出るようにプロンプトを調整して合成したものだ。元の僕の写真が本棚を背景にしているものが多いので、どうも勝手に背景を出力させると本棚になってしまう。
ただまぁ、これは実写版のモデルも使って生成してみたのだが、たった20枚の写真で、しかもトレーニングは1,600回ていど(版権物のキャラクターを再現しようと取り組む人々は、だいたい数十万回のトレーニングをクラウド・サービスなどを使ってやるらしい)しかやっていないのに、角度によっては僕自身が写っているかのように見えてしまうような画像が出力される。
なお、上記のイラストはかなり外見にばらつきがある。これは CFG スケールという、プロンプトから生成されたデ・ノイズのベクトルにどれくらい従うかという強度を弱くして、あるていど出力画像のバリエーションを出しているからだ。CFG スケールを上げて僕自身に似るようにもできるが、逆に画像として崩壊しやすくなる(元の僕の写真に無理矢理合わせようとするため)。