Stability AIが画像生成AI「Stable Diffusion」を公開したのは2022年8月のこと。すさまじい勢いで発展してきた画像生成AIの1年を振り返ってみようと思います。 初めに見てもらいたいのは「これが無料でいいのか!? “爆速生成AI”がペイントソフトに革命を起こした」で紹介した、KritaとGenerative AI for Kritaを組み合わせて作成した設定資料的な画像です。 キャラクターの3面図のサンプル。Vroidで簡単な3Dで当たり(左)として、右の画像を作成する。それを元に、プロンプトや画像に描き込んだりして、最終画像を作成していく。2枚目には前面図の頭部のカチューシャや、胸部分のフリルがなかったりするが、そこに色を加筆して、プロンプトで指示すると、最終画像にそれが追加されるのをリアルタイムに確認しながら修正できる(筆者作成) Stable Diffusi
Generative AI for Kritaのライブペインティング機能を実行している画面。左が筆者が描いた落書き。右が、その画像を線画(Scribble)としてAI生成した画像 11月13日掲載の記事「爆速化する画像生成AI」で紹介した新技術「Latent Consistency Models(LCM)」が大爆発しています。これは画像生成AIに2度目の革命を起こした「ControlNet」に次ぐ大インパクトではないかと感じています。「LCM-LoRA」(LoRAはStable Diffusion用の追加学習モデル)が11月下旬に登場したことで、リアルタイム生成のAI機能を組み入れたサービスやアプリの開発が一気に進みました。 なかでも、筆者にとってインパクトが大きかったのが、ペイントソフト「Krita」向けに開発された「Generative AI for Krita」。Kritaはスウェー
10月1日頃、OpenAIの新しい画像生成AI「DALL·E 3(ダリ3)」が徐々に使えるようになり、その性能の高さから話題になっています。まずサプライズで使えるようになったのがマイクロソフトのBingチャット。日本語で「猫の画像を作ってください」などと入れるだけでかわいい猫の画像が出てくると。これが無料で使えるのは衝撃的です。マイクロソフトが巨大資本で他の会社をつぶしに来たなという感じですね。どう考えても、今のところはサーバーコストが果てしなくかかる赤字サービスなのは間違いないので……。 「ラーメンを食べる女の子」が描ける! なにより衝撃的だったのは、「アニメ風の少女と猫が遊んでいる姿を作ってください」というリクエストに対し、一発で完璧な正解を出してきたことです。Stable Diffusionだと苦手とされていた指も適切に描写されています。もうひとつの着目点はオブジェクト間の関係性です
画像のノイズ除去やボケ除去、超解像といった従来の画像修復問題は、特定の劣化状態、既知の単純な劣化にのみ効果的であった。 これに対して、実際の環境下での多様な劣化を考慮した「Blind Image Restoration」(BIR)という手法が注目されている。BIRは、一般的な画像と、それが持つさまざまな劣化に対して、リアルな画像再構築を目指している。特に、BIRの研究は以下の3つのカテゴリーに分けられる。 (1)Blind Image Super-Resolution(BSR):低解像度で劣化が不明瞭な画像の超解像問題に取り組む技術、(2)Zero-Shot Image Restoration(ZIR):これは新しい研究の方向性で、劣化の前提条件を明確に定義した上で、クラシックな画像修復タスクで印象的なゼロショット復元を達成する方法、(3)Blind Face Restoration(BF
つだしん @tsudashin jpegは不可逆圧縮でpngは可逆圧縮 保存を繰り返す毎に劣化するのがjpeg 解像度低く保存したものは元に戻りません という意味です ちなみにPNGは透過に対応、jpegは非対応 「PNGは色が少ない」と言ってる人いるが、jpegとPNG-24とも1670万色で同じで、ただPNGのデータ量はバカデカい 2023-08-19 10:02:54 つだしん @tsudashin 補足 jpegが一概に悪いわけでなくpng-24は機能的ゆえに重いので『PNGの恩恵がいらないなら基本はJPG』くらいで捉えるのがいい PNGの恩恵を受けつつ軽くしたい時は『PNG-8』も良い。PNG-8はたったの256色なので超軽い。(PNG-24は1678万色) ただし繊細なグラフィックには不向き(256色はGIFと同じ) 2023-08-19 13:01:51
「Windowsの壁紙」と聞いて「青空を背景に緑の丘が写るWindows XPの壁紙」を真っ先に思い浮かべる人は多いはず。この「Windows XPの壁紙」の高解像度版をMicrosoft公式が公開していることが話題になっていたので、実際にダウンロードしてWindows 10やWindows 11の壁紙に設定してみました。 Today I stumbled upon Microsoft’s 4K rendering of the Windows XP wallpaper | Ars Technica https://arstechnica.com/gadgets/2023/06/i-just-found-out-that-microsoft-made-a-4k-version-of-the-windows-xp-wallpaper/ 「Windows XPの壁紙」はMicrosoftの壁紙
https://twitter.com/AiBreakfast/status/1659601613739409409 「DragGAN」のデモ動画を視聴した人たちからは驚きの声が多くあがっているようです。 ・AIって結局進化したPhotoshopってことでいいんだよね ・写真を何百枚も撮る必要がなくなる ・すごいツールが出てきたもんだ ・これはヤバい ・アドビがこの技術を買い取るだろうな ・真実を捻じ曲げる新たな技術 ・完成まで1年もかからないだろう ・すべて人工的で表面的 ・このツールがPhotoshopもデートアプリも破壊する ・これってマジネタ? ・いろんな意味ですごい可能性を感じるツールだ ※画像:Twitterより引用 https://twitter.com/_akhaliq/status/1659424744490377217 ※ソース: https://arxiv.org/p
「GPT-4」発表 日本語でもChatGPT英語版より高性能、司法試験で上位10%、「この画像何が面白いの?」にも回答(1/3 ページ) 米OpenAIは3月14日(現地時間)、大規模言語モデル「GPT-4」を発表した。テキストでのやりとりだけでなく、新たにユーザーから画像を受け取り、適切な情報も返せるようになったという。司法試験の模擬問題を解かせたところ、現在の「ChatGPT」が採用しているGPT-3.5では受験者の下位10%ほどのスコアしか取れないのに対し、GPT-4では上位10%のスコアで合格するとしている。 ChatGPTの有料版「ChatGPT Plus」やAPI経由ですでに利用できるようになっている。 専門的領域なら人間レベル 日本語でもGPT-3.5の英語版より高性能に GPT-4の性能について、同社は「現実世界のシナリオにおいては人間に劣ることも多いが、(司法試験の模擬問
「Midjourney」「Stable Diffusion」など、テキスト(呪文)を入力するだけで、イメージに合った美しい絵を出力してくれるお絵かきAIが、にわかに盛り上がっている。 描き込まれた絵画調の作品や、アニメ風のイラストなどに注目が行きがちだが、他にもさまざまな可能性が広がっている。例えば、子供用の塗り絵を無限に生成する、などだ。 「Midjourney」や、その派生版「niji・journey」で、さまざまな作品を作っているブロガーのkobeniさんは、これらを使って線画の"塗り絵”をたくさん作り、記者の娘(4歳)にプレゼントしてくれた。 娘は、プリンセスの塗り絵に「かわいい」と大興奮。色鉛筆を手にとり、夢中で塗っていった。 kobeniさんによると、塗り絵を作るための"呪文”は、「線画」「色なし」「子供用の塗り絵」「白背景」「白地に黒のはっきりとした線」「細かい書き込み」 「
写真に写り込んだ不要な被写体や、画像の中に含まれる邪魔な文字など、画像の一部を消したい状況は多く発生します。画像の中の不要な部分をキレイに削除できる無料ツール「Lama Cleaner」を見つけたので、PCへの導入方法や使い方をまとめてみました。 GitHub - Sanster/lama-cleaner: Image inpainting tool powered by SOTA AI Model https://github.com/Sanster/lama-cleaner Lama CleanerはPython向けのパッケージ管理システム「pip」を用いてインストールすることもできますが、今回はPythonなどの準備が整っていないPCでも一発で「Lama Cleaner」をインストールできる「Lama Cleaner One Click Installer」を使ってPCにインストール
Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 英オックスフォード大学の研究チームが発表した論文「Signal Injection Attacks against CCD Image Sensors」は、電波を使い、画像認識システムをだまして存在しないものを見せる手法を提案した研究報告だ。任意の文字や画像などを離れた場所からカメラシステムに電波を送信することで、例えば真っ黒であるカメラフレームに文字を浮かび上がらせることもできる。 現在は、CMOS(Complementary Metal-Oxide-Semiconductor)とCCD(Charge-Coupled Device)イメージセンサーという2つの主要なイメージセンサー・アー
Torishima / INTP @izutorishima アニメリアタイと DTV と技術とプログラミングとその他諸々なオタク (⚠⚠⚠AI研究者ではありません!!!フォロー非推奨!!!⚠⚠⚠) IT と AI 関連の情報ウォッチしてます 同IDで Bluesky にもいます 時間掛けて書いた見てほしいツイートはハイライトに (2023/12~) note.com/sumisutori Torishima / INTP @izutorishima 画像を高画質化する AI の Real-ESRGAN、ウルトラスーパーガチで凄すぎて超絶ビビってる waifu2x-caffe と違って Intel Graphics に対応してるらしくノート PC でも爆速でアップスケーリングできるし、精度も段違い(2枚目: Before 3枚目: After) なぜ話題になっていないのか不思議なレベ
1983年徳島県生まれ。大阪在住。散歩が趣味の組込エンジニア。エアコンの配管や室外機のある風景など、普段着の街を見るのが好き。日常的すぎて誰も気にしないようなモノに気付いていきたい。(動画インタビュー) 前の記事:教室みたいなスピーカーを部屋につけてチャイムを鳴らすと最高 > 個人サイト NEKOPLA Tumblr こんな写真を作ってみた この記事で作り出すのがどんな写真か、最初に完成形を見てもらおう。 人が行き交う駅の改札前 石垣を這うツタ よく晴れた日の川面 苔むす雑木林 これらの写真の特徴は、「8色」しか使ってないという点である。しかも任意の8色ではなく、どれも同じ8色(黒、白、赤、青、緑、水色、紫、黄色)だけで出来ている。 ドット絵のように見えて写実的でもあり、いまにもチープな音楽が聞こえてきそうな、心揺さぶる写真に仕上がった。ブラウン管モニタに映してじっくり鑑賞してみたい衝動に
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く