より思い通りの画像を作る!img2img&フォトバッシュ複合ワークフローについて[StableDiffusion] こんにちは。今回はStableDiffusionのimg2imgと昔ながらのフォトバッシュを複合することで、より思い通りに、より完璧に近い画像を仕上げる手法について紹介します。SDやimg2imgについては過去記事を参照して下さい。まずこちらをご覧下さい。 ■『昼飯を食べるバットマンとジョーカー』を作る。『昼飯を食べるバットマンとジョーカー』A film still of Batman and Joker eating lunch in the diner, worm lighting, cinematic tone. The Dark Knight(2008)なんでしょうかこの凶悪な白塗りバットマンは。『昼飯を食べるバットマンとジョーカー』を生成させると高確率でこのような画
ユーチューブに公開された生成AIで作成・加工されたとみられる女性の動画。投稿したアカウントは現在停止されている 生成人工知能(AI)によって作成・加工されたとみられる若い女性の扇情的な動画が、交流サイト(SNS)上などで拡散されている。一見しただけでは生身に見えるほど精緻で、再生回数が数百万回に達するものも。より性的に過激な動画へ誘導するものもあり、専門家は「アクセスを稼いで収益をあげる仕組みが確立されていることが背景にある」と指摘する。 「ミス東大」モデルのような容姿の若い女性が、画面を向きながら公園や屋外を1人で歩く数分の動画。SNSのインスタグラムや動画投稿サイトのユーチューブなどに昨年から登場した、あるアカウントから投稿されたものだ。 「ノーブラ散歩」などの刺激的なタイトルがつけられ、プロフィル欄には東京大学の理系学生をうたい「ミス東大」を目指すなどと記載。他にも、服を着た状態で下
人工知能(AI)は、ウェブサイト制作を、根本から変えてしまうでしょう。 今のところ、AI画像生成ツールは、呪文(プロンプト)を唱える、ちょっとしたコツを覚えることで、以下のようなWebレイアウトを作成できます。 beautiful landing for spiderman website, design, ux/ui, ux, ui --ar 3:2 --v 4 --q 2 「花屋、フラワーショップ」をテーマにすると、一発でWebサイト向けレイアウトを錬成できます。 「日本」をテーマにすると、こんな美しいUIデザインに。 実際にAI画像生成ツールを使いこむうちに、少しずつわかってきた、AIツールでウェブサイトやUIデザイン画像を生成するコツを、メモ的にご紹介。 アップデート、継続していきます。 コンテンツ目次 ✨ AI画像生成ツールとは? ✨ 唱える呪文(プロンプト)って何? ✨ 画像を
前回記事「Midjourney、Stable Diffusion、mimicなどの画像自動生成AIと著作権」は、おかげさまで沢山の方に読んで頂き、いろいろな意見や御質問や取材を頂きました。 それらの意見・御質問や取材を通じて、自分の中で新たな整理ができたので、続編の記事を書きたいと思います。 第1 どのような場合に著作権侵害になるのか みなさんの興味関心が強いトピックとして「画像自動生成AIを利用して画像を自動生成し、既存著作物の類似画像が生成された場合に著作権侵害に該当するか」があります。 前回の記事では「学習に用いられた画像と同一の画像が『偶然』自動生成された場合、著作権侵害に該当するか」について解説をしましたが、今回の記事では、もう少し多くのパターンについて検討をしたいと思います。 まず、その前提として「著作権侵害の要件」と「著作権侵害の効果」について説明をします。 この「要件」と「
11月29日にお知らせした「画像生成AIパレット」の試験的実装の予定について、皆様にご不安・ご不快な思いをさせてしまい、大変申し訳ございません。 「画像生成AIパレット」は、皆様に新しい創作の体験をしていただきたい、という想いで開発を進めてきましたが、体験していただく以前に必要な配慮が欠けていました。 セルシスは、画像生成AI技術をどのように創作活動に活用できるかにとらわれ、創作の道具としてCLIP STUDIO PAINTをご利用いただいている皆様の気持ちに寄り添えなかったことを反省し、お詫びいたします。 告知以降、皆様から多くのご意見をいただきました。 現状の方式の画像生成AIが、著作権を侵害していなくとも、誰かの著作物を利用して画像が生成されており、その由来が不明であるアプリは使いたくない。 アーティストの為のツールを名乗っているが、画像生成AI機能はむしろアーティストを苦境に追い込
Amazonは、生成AIスキルを習得できる無料の8つの講座をAWSで提供すると発表した。2025年までに世界中の200万人にAIスキルのトレーニングを無料で提供するとしている。 米Amazon.comは11月20日(現地時間)、新たな取り組み「AI Ready」を発表した。2025年までに世界中の200万人にAIスキルのトレーニングと教育を無料で提供することを目指す。まずはAIのスキルアップを支援する8つの無料コースを開設した。 新コースは基礎から上級まであり、企業幹部や技術者向けのコースをAWS EducateとAWS Skill Builderで受講できる。コースの詳細についてはプレスリリースを参照のこと。コースは英語だが日本からも受講可能のようだ。 Amazonによると、AWSのプログラムでは、既に2100万人がクラウドコンピューティングのスキルを学んだという。 また、AI Read
をご紹介するという内容になっています。 これまでAIイラストというと一貫性の問題、つまり「同じキャラクターを生成するのが難しい」という課題がありました。例えばあるイラストを生成して好みのキャラクターが出たとしても、別の呪文を使うとそのキャラクターを正確に再現できなくなってしまう…ということですね。 ただ最近はこの問題に対する対処法がいくつか登場しており、一貫性が重要なアニメーションや漫画への応用がより実用的になりつつあります。そのような中でこの問題に対して有効な「MasaCtrl」という手法を使えるweb UI用の拡張機能が登場し、一貫性の問題を解決できそうだと先日各所で話題になっていたので私も試してみることにしました。 ここではこのMasaCtrlの概要や使い方について解説していきますね。
どういうハードウェア構成でなんのOS使ってるのかとか知りたい。 GPUはNVIDIAでやるとして、OSはCUIだけでVRAM使わないようにするとかそういう工夫してるのかな。 俺はAMDのGPUでやってんだけど、やっぱNVIDIA使ったほうが色々と性能とかVRAM消費量とか効率的なんだろうか。 なんでAMDかっていうと、GPU買ったタイミングとStable Diffusion入れたタイミングが違うからだ。いやー苦労したわ。 でかい画像作ろうとするとすぐにメモリ足りなくてコケるし、果たして今作ってる画像サイズにかかる時間が適切なのかとか知りたいことは山ほどあるんだよな。 *** 追記 なんかたくさんブコメとかレスとかついてて驚いた、ありがとう。 今買うならNVIDIAの40番台というのがいいんだな。昔GeForceとか言って売ってた頃の知識しかないからイマイチ型番とかよくわからないおっさんでし
いい感じの画像を生成するコツ 話題の画像生成AI StableDiffusionですが、よくSNSで見るような高画質高品質リアリスティックな人物画像を生成するにはそれなりのコツがあります。 この記事では、どのような単語を使えば高品質な画像を生成できるか、例を紹介します。 StableDiffusionを使ってみるにはWebUIが便利です。以下のリンクから使い方がわかります。 ただ欲しい画像のテキストを入れるだけではだめ 例えば、女の子の画像が欲しいとします。 ただ"girl"と入力すると以下のような画像が出てきます。 悪くはないですが少しCGっぽいですよね、もう少し写真っぽい画像が欲しいです。 高画質を連想させる単語を入れる さて、ここで以下のように "best quality" や "high resolusion" など高画質を連想させる単語を嫌というほど入れます。 ちょっとびっくりす
前回、Stable Diffusionをdanbooruデータセットを使用して追加学習することを試した。 今回は、自分でデータセットを作成して追加学習することを試す。 データセットには、画像とキャプションが揃っている必要があり、キャプションがない場合はCLIPで疑似ラベルを生成するなどする必要がある。 今回は、画像に対するキャプションがある「いらすとや」をスクレイピングして、データセットを作成した。 データセット作成 「いらすとや」から全ての画像とキャプションを取得した。 画像に複数バリエーションがある場合は、1つ目の画像のみを使用した。 キャプションは、日本語になっているため、Googleスレッドシートで、「=GOOGLETRANSLATE(XX,"ja","en")」を使って英語に変換を行った。 合計で、22891枚の画像とキャプションのセットが用意できた。 画像サイズ変換 画像は、5
「Stable Diffusion web UI(AUTOMATIC1111版)」は他のUIには搭載されていない機能なども盛り込んだ、いわば決定版の「Stable Diffusion」のUIといえますが、それだけにやれることが多いので、どこをどう触ればよいか悩むこともあるはず。 この記事ではまず、「Stable Diffusion web UI(AUTOMATIC111版)」のうち、テキストから画像を生成する「txt2img」の基本的な使い方をまとめています。 ◆目次 ・1:最も簡単な使い方 ・2:「txt2img」タブ内の各項目はどういう意味なのか? Stable Diffusion web UI(AUTOMATIC1111版)は画像生成AI「Stable Diffusion」を使うためのUIの1つ。Stable Diffusionの利用にはNVIDIA製GPUが必要で、該当するPCにS
権利者の許可なく二次著作物を公表・頒布することは、著作権侵害であり違法行為です。 ネット上では「二次創作はグレーゾーン」と言われることがしばしばありますが、どれも法的に間違ったものばかりです。 これをお読みの皆様は、 間違った知識を広めない違法行為に荷担しない非常識な発言を残して恥を晒さないためにも、正しい認識を持って下さい。 「著作権侵害は親告罪だから、訴えられなければ合法」という嘘日本では著作権侵害は、一部の状況を除いて親告罪です。つまり、権利者以外の第三者が著作権侵害を起訴することはできませんし、権利者が起訴しない限り、裁判で有罪になることもありません。 これを以って、「権利者から訴えられなければ、二次創作をしてもいい」と主張する人がいますが、もちろんそんなわけはありません。親告罪だろうが非親告罪であろうが、犯罪は犯罪であり、してはいけないのです。 ところで、名誉毀損罪や器物損壊罪も
◆◆◆ ChatGPTとしのぎを削るライバルたち ――ChatGPTのほかにも似たようなサービスはあるんですか? 深津貴之氏(以下、深津) ありますよ。ChatGPTはいわゆる「大規模言語モデル(LLM)」というジャンルのAIで、このジャンルに限ると、開発中のGoogleの「Apprentice Bard」やMetaの「LLaMA」、すでに運用されているMicrosoftの「Bing Chat」などが有名どころですかね。 Microsoftの「Bing Chat」使用画面 AmazonもHugging Face(編集部注:機械学習アプリケーションを作成するためのツールを開発しているアメリカの企業)と連携してこれから開発したい、みたいなノリです。Appleだけは沈黙を守っているという状況ですね。 ――それぞれのサービスで得意なことは変わってくるのでしょうか。 深津 LLMはネット中の文章を全
画像生成AI・Stable Diffusionを導入するにはNVIDIA製GPUを搭載したPCのほかにPythonやAnacondaなどの知識が必要で、ローカル環境に導入するには少し敷居が高いところがありました。しかし、2022年8月に一般公開されて以降、多くの開発者によって誰でも簡単にStable Diffusionをローカル環境に導入可能でかつGUIで操作できるツールが次々と開発されています。「Stable Diffusion web UI(AUTOMATIC1111版)」はその中でも他のUIには搭載されていない機能も盛り込まれた決定版とも言えるツールで、その中でも特に画像生成にお役立ちな機能である「Prompt matrix」と「X/Y plot」を実際に使ってみました。 GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Di
Stable Diffusionがオープンソースで公開されてちょうど1ヶ月が立ちました。OpenAIがDall-E2をリリースしたのが4月。こういう異次元なリソースを使ってモデルを作れるのはごく限られたプレーヤーだけと思い込んでいたものが、若干十数人のチームがMidjourneyをリリースしたのが7月。一連の騒ぎがここ半年程度の出来事で、1ヶ月前に深津さんも予見していた「世界変革」が目の前で怒涛の勢いで進行しています。 このブログも書いた瞬間に古くなるだと思うけど、この文化的特異点とも言える1ヶ月に起こったことを振り返ってみたいと思います。それにしても手書き文字の生成に感動していた2015年から比べるとずいぶん遠いところまで来ましたね。DataRobotでも「AIの民主化」を掲げて様々な企業のAI活用を推進していたけれど、今起こっている変化を見ているとそのスピード感に愕然とします。 少し宣
画像生成AI「Stable Diffusion」は、指示した通りの画像を生成してくれるAIとして大きな注目を集めています。Stable Diffusionを実際に使うにはPythonのインストールといったPCの知識が求められる作業が必要なのですが、有志が開発した「NMKD Stable Diffusion GUI」なら誰でも簡単にStable Diffusionを使う環境を整えられます。そんなNMKD Stable Diffusion GUIではStable Diffusionに備わった各種機能を簡単操作で実行可能なので、NMKD Stable Diffusion GUIの各種設定項目や自分好みの画像を生成するまでの手順を徹底的にまとめてみました。 My easy-to-install Windows GUI for Stable Diffusion is ready for a beta
It is our pleasure to announce the public release of stable diffusion following our release for researchers [https://stability.ai/stablediffusion] Over the last few weeks, we all have been overwhelmed by the response and have been working hard to ensure a safe and ethical release, incorporating data from our beta model tests and community for the developers to act on. In cooperation with the tirel
画像生成AI「Stable Diffusion」は入力したキーワードに沿って画像を出力してくれるAIで、簡単なお絵かきとキーワードを合わせて意図した画像を生成したり、「この画像っぽい○○」といった指示でイメージを形にできたりと、さまざまな機能や手法が生み出されています。そんなStable Diffusionについて、「画像を学習するAIは、ウェブ上のどのような画像を学習しているのか?」という疑問を解明するために、23億枚のデータセットから1200万枚を抜粋して集計した調査結果を、技術者・ブロガーのアンディ・バイオ氏が公開しています。 Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator - Waxy.org https://waxy.org/2022/0
NovelAIを用いて出力した画像の枚数が気がつくと2万枚を超えていたので、振り返りがてら画像を見返していた。 黒に輝く#NovelAI #NovelAIDiffusion pic.twitter.com/TrB3FBYjXV — sabakichi|Domain ✍︎ (@knshtyk) October 19, 2022 自分でも驚いたのだが、サービスを触りはじめた10/4から10/24現在に至るまで、わずか20日間のうちに2万枚にもおよぶ「一定の表現能力を持った個別の画像」(これをイラストレーションと呼ぶべきか否かはさておき)が、たった一人の人間によって生成されたというのは脅威的なことだろう。人類の歴史を振り返っても類似の現象は見当たらないのではないか。 近い感性としては、やはり歴史的には写真技術とGenerative Art、デザインや設計に用いられているComputational
「AIいらすとや」など、権利クリアな画像生成AIを開発してきたAI Picasso社は、アニメ・マンガ風のイラストを生成できる画像生成AI「Emi」(Ethereal master of illustration)を9月25日に無償公開した。 Stable Diffusionベース。追加学習で無断転載画像を学習させておらず、権利がクリアな点が特徴。商用利用も可能だ。 Stable Diffusion XL 1.0と NVIDIAのGPU「H100」に、同社のノウハウを組み合わせて開発。最近の画風になるよう調整した。 追加学習に「Danbooru」などの無断転載サイトを使っていない。クリエイターの意見を聞きながら開発したという。 同社の従来のモデルと異なり商用利用可能にした。画像生成AI普及に伴い、創作業界に悪影響を及ぼさないようマナーを守る人が増えてきたことや、他の画像生成AIが商用可能な
1 画像生成AIを含む生成系AIとビジネス ビジネス領域において、画像生成AIを含む生成系AI技術が利用される場面は大きく分けると2つあるように思います。 1つはユーザー側で利用する場面、つまり「生成系AIを利用して生成したコンテンツを自社プロダクトで用いる場合」、もう1つはベンダ側で提供する場面、つまり「生成系AIのモデルそのものや当該モデルをベースとするアプリケーションを開発・提供する場合」の2つです。 もちろん、企業によっては「自社で生成系AIツールを開発し、当該ツールを用いて生成したコンテンツを自社プロダクトで用いる」ということもあるでしょう。その場合は2つの領域双方にまたがった検討が必要です。 (1) 生成系AIのモデルそのものや当該モデルをベースとするアプリケーションを開発・提供する場合 生成系AIのモデルそのものや、当該モデルをベースとするアプリケーションをベンダ・サービサー
Checkpointとはあとひと月ほどすると、前回ご紹介した次世代Stable Diffusion、SDXLの波が来そう(来るかも?)と言うこともあり、今回は一番の基本となるCheckpointと、筆者の興味の対象となっているリアル系モデルの遷移にふれておきたい。 まずStable Diffusionのバージョンは1.4、1.5、2.0、2.1などがあり、現在最もポピュラーなのは1.5 (SDXLは0.9、1.0)。基本、対応したバージョンでないとモデルは作動しない。 一言でモデルと言っても、Stable Diffusionが必要、もしくはオプションとして扱えるモデルは、Checkpoint、LoRA、LyCORIS、Embedding、 Hypernetwork…など、さまざまな種類がある。絵を作る上において最も重要(=絵の元になる)のがCheckpointで、他は無くても最低限これだけ
2022年8月に一般公開された画像生成AI「Stable Diffusion」を簡単にWindowsローカル環境に導入でき、コマンドラインではなくブラウザ上に表示されるユーザーインターフェース(UI)から操作可能にするツールがAUTOMATIC1111版Stable Diffusion web UIです。AUTOMATIC1111版Stable Diffusion web UIはただ画像を生成するだけではなく、画像生成時に入力する文字列(プロンプト)について複数の組み合わせを一気にチェックしたり、画像生成の条件を複数設定して一度に画像を生成したりするなど、Stable DiffusionのUIとしては決定版といってもいいほど機能が充実しています。そんなAUTOMATIC1111版Stable Diffusion web UIでは、AIで生成した画像を解析してプロンプトを表示する「CLIP
これらの漫画をつくりました。 手法として、コマごとに画作りが基本で全体を一気には出力していません。 また、事前に登場キャラクターをたくさん生成しストックしておきはめ込むのが一番簡単です。ControlNetを使うのも良いですが、一部に利用するにとどめて基本はストック画像からパッチワークをするのが一番効率がいいです。 背景と人物は一気に生成しなくてよいです。ただし、画風があまりはなれすぎないように工夫する必要があります。 AI漫画は既存の漫画を作るのと一部逆走する手法でいろんな物を構成する必要があります。 例えばキャラデザです。 あまり出力が安定しない特殊なキャラデザは、画風は避けたほうが無難です。ですが、ある程度の「特徴」は必要なので難しいところです。 出力安定しやすいポイントとしては ・短髪の女の子 を1人は登場させたほうがいいです。明るい髪色だとなお良いです。 長髪や髪の毛を結ぶキャラ
#stablediffusion 完全に理解した pic.twitter.com/IR5yjnL07Y— すぎゃーん💯 (@sugyan) August 31, 2022 ということで少し触って遊んでみたのでメモ。 Stable Diffusion をザックリ理解 先月公開された Stable Diffusion。 stability.ai 高精度で美しい画像を出力できる高性能なモデルながら、Google Colab などでも手軽に動かせるし、 Apple silicon でもそれなりに動かせる、というのが魅力だ。 中身については 以下の記事の "How does Stable Diffusion work?" 以降のところが分かりやすい。 huggingface.co 図をそのまま引用させていただくと という仕組みになっていて、受け取る入力は "User Prompt" と "Late
文章を入力するだけで好みの画像を生成できるAI「Stable Diffusion」には、画像の続きを描画する「アウトペインティング」や、画像の一部を生成画像で置き換える「インペインティング」などの機能も搭載されています。そんなアウトペインティングやインペインティングを直感的に利用できるようにしたUI「Hua」が公開されていたので、実際にHuaを用いて画像を生成する手順をまとめてみました。 GitHub - BlinkDL/Hua: Hua is an AI image editor with Stable Diffusion (and more). https://github.com/BlinkDL/Hua Huaは、Stable Diffusionの高機能UI「Stable Diffusion web UI(AUTOMATIC1111版)」と連携させて使えるUIです。Stable Di
これは 画像生成AI Advent Calendar 2022 16日目の記事です。 2022年7月末頃、AIによるテキストからの画像生成が一気に広がって以降、あまりに急速な変化が日々続いています。こうした激動の中でも、日本ではアニメ調のイラスト生成への注目が強すぎて、AIの可能性や破壊力、未来などの話題が少なく感じています。 そこでAIがもたらしうる未来や応用などを考え、特に身近な人々へ向けて、わかりやすく紹介することにしました。AIの専門的な研究者ではなくSFのような未来予想ですがご容赦ください。 なおこの記事は、挿絵も含め全体をCC0 1.0で公開します。最大限自由な利用が可能で、転載や加工や販売も自由に行なえます。CC0として利用しやすいよう、引用や転載も含んでいません。 また挿絵は、解説用もお飾り用もすべて、素のStable Diffusionのみで生成しています。キャプションと
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く