サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
世界禁煙デー
ja.stability.ai
ポイント Japanese Stable LM 2 1.6B(JSLM2 1.6B)は16億パラメータで学習した日本語の小型言語モデルです。 JSLM2 1.6Bのモデルサイズを16億パラメータという少量にすることによって、利用するために必要なハードウェアを小規模に抑えることが可能であり、より多くの開発者が生成AIのエコシステムに参加できるようにします。 ベースモデルとしてJapanese Stable LM 2 Base 1.6Bと、指示応答学習(Instruction tuning)済みのJapanese Stable LM 2 Instruct 1.6Bを提供します。両モデルともStability AI メンバーシップで商用利用が可能です。また、どちらのモデルもHugging Faceからダウンロードすることができます。 Japanese Stable LM 2 Base 1.6B
ポイント Stable Audio 2.0は、AIが生成するオーディオの新たなスタンダードとなるもので、44.1KHzステレオで3分までの一貫した音楽構造を持つ高品質なフルトラックを生成します。 このモデルは、ユーザーが自然言語のプロンプトを使用してサンプルをアップロードし、変換できるようにすることで、オーディオからオーディオへの生成を導入しています。 table Audio 2.0は、AudioSparx 音楽ライブラリからライセンスされたデータセットのみでトレーニングされ、オプトアウトのリクエストに対応し、クリエイターへの公正な報酬を保証します。 Stable Audio のウェブサイトをチェックして制作を始めてみてください。 Stable Audio 2.0をご紹介します。このモデルは、1つの自然言語プロンプトから、44.1KHzステレオで、最長3分までの一貫した構造を持つ高品質のフ
ポイント Stable Video Diffusion に基づいた生成モデルである Stable Video 3D (SV3D) のリリースにより、3D技術の分野を発展させ、品質とビューの一貫性を大幅に改善します。 このリリースには SV3D_u と SV3D_p の2つのバリアントがあります。SV3D_uはカメラ調整なしで単一画像入力に基づいて軌道動画を生成します。SV3D_p は、単一画像と軌道ビューの両方に対応することで機能を拡張し指定されたカメラパスに沿った3Dビデオの作成を可能にします。 Stable Video 3D は、Stability AI メンバーシップに加入することで、商用利用が可能になります。非商用利用の場合は、Hugging Face のモデルウェイトをダウンロードし、こちらの研究論文をご覧ください。 Stable Video Diffusion をリリース時、私
ポイント TripoSR は Tripo AI と提携し、1秒以内に1枚の画像から高品質な3Dモデルを生成します。 TripoSRは低い推論バジェットで動作するため(GPUなしでも)、幅広いユーザーとアプリケーションにとって利用しやすく実用的です。 モデルウェイトとソースコードは、MITライセンスの下でこちらからダウンロード可能です。 Tripo AI と提携し、LRM: Large Reconstruction Model For Single Image to 3D にインスパイアされた高速3Dオブジェクト再構築モデル TripoSR を開発しました。この新しい画像から3Dへのモデルは、詳細な3Dオブジェクトを視覚化するための応答性の高い出力で、エンターテインメント、ゲーム、工業デザイン、建築の専門家の高まる需要に応えるように設計されています。 性能 TripoSR は、その他のモデル
Stable Diffusion 3 の先行プレビューを発表します。このモデルは、複数主題のプロンプト、画質、スペリング能力などのパフォーマンスが大幅に向上した、高性能な画像生成モデルです。 このモデルはまだ広く利用可能ではありませんが、本日、先行プレビューのウェイティングリストを開始しました。このプレビュー段階は、これまでのモデルと同様、一般公開に先立ち、性能と安全性を向上させるための知見を収集するために非常に重要です。ウェイティングリストへの登録はこちらから。 Stable Diffusion 3の一連のモデルは、現在800Mから8Bのパラメータを提供しています。このアプローチは、私たちのコアバリューに沿い、アクセスを民主化することを目的としており、ユーザーのクリエイティブなニーズに最適な形で応えるため、拡張性と品質に関するさまざまなオプションを提供します。 Stable Diffus
ポイント Stable Cascadeは、Würstchen アーキテクチャをベースにした新しいテキスト画像変換モデルです。このモデルは、非商用利用のみを許可する非商用ライセンスの下でリリースされます。 Stable Cascadeは、3段階のアプローチにより、一般消費者向けハードウェアでのトレーニングと微調整が簡単にできます。 チェックポイントと推論スクリプトを提供するだけでなく、皆さんがこの新しいアーキテクチャをさらに試せるように、微調整、ControlNet、LoRAトレーニング用のスクリプトを Stability AI の GitHub で公開しています。 はじめに Stable Cascade の研究プレビューが公開されました。この革新的なテキストから画像へのモデルは、品質、柔軟性、微調整、および効率性のための新しいベンチマークを設定し、ハードウェアのバリアをさらに排除することに
ポイント Stable Code 3Bは、30億パラメータを持つ大規模言語モデル(LLM)であり、CodeLLaMA 7bのような2.5倍の大きさを持つモデルと同等のレベルで、正確で応答性の高いコード補完を可能にします。 MacBook Airのような一般的なノートパソコンでGPUがなくてもオフラインで動作します。 モデルを商用利用するためには Stability AI メンバーシップ へのご登録をお願いします。 2024年最初の大規模言語モデルのリリースを発表します。 Stable Code 3B です。 この新しいLLMは、先にリリースされた Stable Code Alpha 3B に続くもので、Stable Codeの最初の大規模リリースとなります。 CodeLLaMA 7bと比較すると、Stable Code 3Bは60%小型化されている一方で、プログラミング言語全体において同様
ポイント SDXL Turboは、新しい蒸留技術によって最先端の性能を達成し、これまでにない品質のシングルステップ画像生成を可能にし、必要なステップ数を50から1に削減 非商用研究ライセンスでのリリース(Hugging Faceのモデルウェイトとコードをダウンロードしてください。) Clipdrop にてベータ版を公開中 新しいテキスト画像合成モードである SDXL Turbo をご紹介します。SDXL Turbo は、敵対的拡散蒸留(Adversarial Diffusion Distillation:ADD)と呼ばれる新しい蒸留技術に基づいています。この技術により、SDXL Turbo は1つのステップで画像出力を合成し、高いサンプリング忠実度を維持しながらリアルタイムでテキストから画像への出力を生成することができます。技術的な詳細に興味のある研究者や愛好家のために、研究論文はこちらで
本日、私たちは Stable Video Diffusion を公開しました。これは、画像モデル Stable Diffusion に基づく最初の基盤モデルで、動画生成用です。 現在、研究プレビューとして公開されているこの最先端のAI動画生成モデルは、あらゆるタイプの人々のためのモデルを作成するための私たちの旅の重要な一歩を表しています。 この研究リリースでは、Stable Video Diffusion のコードを GitHub リポジトリで公開し、ローカルでモデルを実行するために必要なウェイトは Hugging Face のページで見ご確認いただけます。モデルの技術的能力に関するさらなる詳細は、私たちの研究論文で確認できます。 様々なビデオアプリケーションに適応 このビデオモデルは、単一画像からのマルチビュー合成など、様々なタスクに簡単に適応させることができます。私たちは、Stable
Stability AI は日本に特化した text-to-image モデル「Japanese Stable Diffusion XL(JSDXL)」をリリースしました。商用利用可能な「JSDXL」は、日本語入力の対応に加え、日本スタイルや日本を題材とした画像を生成することができます。 Japanese Stable Diffusion XL 「Japanese Stable Diffusion XL(JSDXL)」は、最新の英語版 text-to-image モデルSDXLに対して、日本語入力はもちろん、日本の文化やものが理解・反映された画像生成に特化させた日本向け text-to-image モデルです。 昨今、SDXL を含む強力な text-to-image モデルが公開されております。これらと翻訳ツールを組み合わせることで日本語入力は可能ですが、日本特有の表現の認識が難しい点や
Stability AI は商用利用可能な日本語画像言語特徴抽出モデル「Japanese Stable CLIP」をリリースしました。モデル単体では、ゼロショット画像分類(事前にクラス情報を学習せずに画像分類)や任意のテキストから画像を検索する画像検索などに用いることができます。また、他のモデルと組み合わせることで、text-to-image や image-to-text といった生成タスクに拡張することが可能です。 Japanese Stable CLIP 「Japanese Stable CLIP」は、日本らしい画像や日本語に特化した画像言語特徴抽出モデルです。学習には、最新手法である SigLIP の手法を用いており、オープンソースになっている日本語対応CLIPモデルの中で、最も高いスコアを達成しています。
Stability AI は商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースしました。 Japanese Stable VLM 「Japanese Stable VLM」は、「Japanese Stable LM Instruct Gamma 7B」をベースとした日本語画像言語モデル(Vision-Language Model、略してVLM)です。入力した画像に対して文字で説明を生成できる画像キャプショニング機能に加え、画像についてのユーザーの質問に回答することもできます。 研究目的に作られた最初のバージョン「Japanese InstructBLIP Alpha」とは、主に以下の2点の違いがあります。 商用利用可能* ライセンス 最新手法 LLaVA-1.5 のモデル構造・学習手法を適用 ベースとする言語モデルを「Japanese Stable LM
Stability AI Japan は、オープンな日本語大規模言語モデルの中で最高性能*のものを含む「Japanese Stable LM Beta (JSLM Beta)」シリーズをリリースしました。 各モデルは Llama-2 をベースとしており、追加の学習を行うことで日本語の能力や日本に関する知識等を追加し、日本における用途に特化させています。特に、最大サイズの指示応答言語モデルである JSLM Beta 70B は、700億パラメータの商用利用可能な日本語言語モデルです。2023年11月現在、我々の知る限りでは最大規模のオープンな日本語特化言語モデルとなります。 *注:性能の評価方法は後述 "A cute robot wearing a kimono writes calligraphy with one single brush" — Stable Diffusion XL (
日本語大規模言語モデル「Japanese Stable LM 3B-4E1T」「Japanese Stable LM Gamma 7B」を公開しました Stability AI Japan は日本語向け大規模言語モデル「Japanese Stable LM 3B-4E1T」及び「Japanese Stable LM Gamma 7B」を公開しました。前者は約30億パラメータ、後者は約70億パラメータのモデルであり、日本語タスクを用いた性能評価において、同等サイズのモデルで最高水準の性能を発揮しています。モデルはすべて商用利用可能な Apache 2.0 ライセンスにて公開しています。 今回公開したモデルは以下の通りです。 30億パラメータの汎用言語モデル: Japanese Stable LM 3B-4E1T Base 30億パラメータの指示応答言語モデル: Japanese Stable
Japanese StableLM Instruct Alpha 7B v2 「Japanese StableLM Instruct Alpha 7B v2」は、汎用言語モデル「Japanese StableLM Base Alpha 7B」に対し追加学習を行い、ユーザーの指示に受け答えできるようにした日本語向け指示応答言語モデルです。 Stability AIは、2023年8月に、研究目的で作られた最初のバージョン「Japanese StableLM Instruct Alpha 7B」を公開しました。その後、さらに多くの方にJapanese StableLMに触れていただけるよう、商用利用可能なモデル開発を進めて参りました。 「Japanese StableLM Instruct Alpha 7B」との主な違いは、利用したデータセットです。商用利用を制限しないデータセットのみを利用し、
Stability AI は、音楽とサウンド生成のための初のAIモデルとなる Stable Audio を発表しました。 Stable Audio は、最新の生成 AI 技術を駆使し、使いやすい Web インターフェースを介して、より高速で高品質な音楽とサウンドエフェクトを提供する世界初の製品です。Stability AI は、45秒までのトラックを生成してダウンロードできる Stable Audio の基本無料版と、商用プロジェクト用にダウンロード可能な90秒のトラックを提供する「Pro」サブスクリプションを提供しています。 StabilityAI の CEO である Emad Mostaque は、「唯一の独立した、オープンでマルチモーダルな生成 AI の会社として、音楽クリエイターをサポートする製品を開発するために私たちの専門知識を活用できることを嬉しく思います。私たちの願いは、St
Stability AI は、初のコーディング用 LLM 生成AI製品である StableCode をリリースしました。この製品は、プログラマーの日常業務を支援すると同時に、スキルを次のレベルに引き上げる準備ができている新人開発者向けの優れた学習ツールとしても設計されています。 “a colorful parrot with glasses typing away at a computer, flat icon, vector” – SDXL 0.9 StableCode は、3つの異なるモデルを使用してコーディングを支援することで、開発者がより効率的になるためのユニークな方法を提供します。ベースモデルは、まず BigCode のスタックデータセット(v1.2)から多様なプログラミング言語のセットでトレーニングされ、Python、Go、Java、Javascript、C、markdown
Stability AIは日本語向け画像言語モデル「Japanese InstructBLIP Alpha」を一般公開しました。入力した画像に対して文字で説明を生成できる画像キャプション機能に加え、画像についての質問を文字で入力することで回答することもできます。 Japanese InstructBLIP Alpha「Japanese InstructBLIP Alpha」は、先日公開された日本語向け指示応答言語モデル「Japanese StableLM Instruct Alpha 7B」を拡張した、画像を元にしたテキストが生成されるモデルです。 「Japanese InstructBLIP Alpha」は、高いパフォーマンスが報告されている画像言語モデルInstructBLIPのモデル構造を用いております。少ない日本語データセットで高性能なモデルを構築するために、モデルの一部を大規模な
Stability AI Japan は70億パラメータの日本語向け汎用言語モデル「Japanese StableLM Base Alpha 7B」及び、指示応答言語モデル「Japanese StableLM Instruct Alpha 7B」を一般公開しました(略して「JSLM」)。これらのモデル はベンチマークスイート「lm-evaluation-harness」による複数の日本語タスクを用いた性能評価において、一般公開されている日本語向けモデルで最高の性能を発揮しています。 汎用言語モデル「Japanese StableLM Base Alpha 7B」「Japanese StableLM Base Alpha 7B」はウェブを中心とした大規模なデータを用いてテキスト生成を学習したモデルです。学習データは主に日本語と英語で、それに加えソースコードが約2%含まれています。学習データに
Stability AIはSDXL 0.9を発表します。SDXL 0.9は、これまでの(テキストから画像を生成するモデル)Stable Diffusionの中で最も高性能なものです。4月にリリースされ好評を博したStable Diffusion XLベータ版に続き、SDXL 0.9では画像と構図のディテールが大幅に改善されました。 このモデルはClipDropからアクセスでき、APIは近日公開予定です。7月中旬には1.0へのオープンリリースが予定されています。 SDXL 0.9は、標準的な家庭用コンピュータで実行できるにもかかわらず、生成AIの創造的な使用例を飛躍的に向上させます。映画、テレビ、音楽、教育ビデオ用の非常にリアルな作品を生成できるだけでなく、デザインや産業用途でも進化を遂げ、SDXLは生成AIにおいて最前線に位置しています。 例 SDXLベータ版(左)と0.9の両方でテストさ
Clipdropは、AIが生成する「アウトペインティング」ツールUncropを発表します。このツールは、既存の写真や画像を補完するために背景を拡大することで、あらゆる画像の比率を変更することができます。Clipdropのウェブアプリで、登録しなくてもすぐに利用できますので、ぜひ試してみてください。 Uncrop は、Stability AI のテキスト画像変換モデル Stable Diffusion をベースに開発されており、画像を再構成して視覚的なキャンバスを広げることで、寸法を調整することが可能です。いくつかの簡単なステップで、ユーザーは切り取られた画像や不完全な画像をアップロードし、アウトペイントテクノロジーのすごさを目撃することができます。高度なアルゴリズムとディープラーニング技術を使用して、アップロードされた画像内のコンテンツを分析し、そこにあったかもしれないものを視覚的にもっと
Stable Diffusionのオリジナルリリース以来、DreamStudioはStability AIが新しいモデルや機能を使用する際の主要なインターフェースとして機能してきました。最近では、私たちの最新の画像生成モデルであるSDXLを使用するためにアップグレードされたことをご記憶の方も多いと思います。このアプリケーションは、生成AIの能力を多くの人たちに届けるためのプラットフォームとして最初に開発されました。 私たちの目標は、より広いコミュニティと協力して、ユーザーが自由に使える生成AIのためのワールドクラスのユーザーインターフェイスを作ることです。 StableStudioの機能拡張について DreamStudioは、当初Disco Diffusionのアニメーションスタジオとしてイメージしていました。2022年夏、Stable Diffusionの登場を目前に控え、フォーカスは画
Stability AI、開発者向けテキストからアニメーションへの変換ツール Stable Animation SDK をリリース Stability AIは、「Stable Animation SDK」をリリースしました。このツールは、アーティストや開発者が、最先端のStable Diffusion モデルを実装し、見事なアニメーションを生成するために設計されています。 ユーザーは、プロンプト(画像不要)、元となる画像、または元となるビデオを用いて、様々な形でアニメーションを作成することができます。 Stability AI のアニメーション生成エンドポイントを用いることで、アーティストはStable Diffusion 2.0やStable Diffusion XL を含むすべてのStable Diffusionモデルを使用して、アニメーションを生成することができます。 アニメーション
Stability AI、初のオープンソースRLHF LLMチャットボット、StableVicuna をリリース 背景 ここ数ヶ月、チャットボットの開発・リリースが大きく進んでいます。昨年春のCharacter.aiのチャットボットから、11月のChatGPT、12月のBardまで、言語モデルをチャット用にチューニングすることで生まれるユーザー体験が話題になっています。オープンアクセスやオープンソースによる代替品の登場が、この関心をさらに高めています。 オープンソースチャットボットを取り巻く現在の環境 これらのチャットモデルの成功は、命令の微調整と人間のフィードバックによる強化学習(RLHF)という2つのトレーニングパラダイムに起因しています。trlX、trl、DeepSpeed Chat、ColossalAIなど、この種のモデルの学習を支援するオープンソースのフレームワークを構築するため
定義とプロセス DeepFloyd IFは、モジュール化、カスケード化された、ピクセルdiffusion モデルです。ここでは、それぞれの記述子の定義を分解して説明します。 Modular: DeepFloyd IFは、複数のニューラルモジュール(テキストプロンプトからの画像生成やアップスケーリングなど、独立したタスクを解決できるニューラルネットワーク)で構成されており、1つのアーキテクチャでの相互作用により相乗効果が生まれます。 Cascaded: DeepFloyd IFは、異なる解像度で個別にトレーニングされた一連のモデルを使用して、カスケード方式で高解像度データをモデル化しています。このプロセスは、ユニークな低解像度サンプル(「プレーヤー」)を生成するベースモデルから始まり、連続する超解像度モデル(「アンプリファイア」)によってアップサンプリングされて、高解像度画像が生成されます。
Stability AIは、画像の鮮明さを損なわずにサイズを拡大するAI搭載ツール「イメージアップスケーリングAPI」のリリースを発表しました。 イメージアップスケーリングAPIは、Stability AIの既存の画像生成・編集API群(人気のあるテキストから画像、画像から画像、画像修復(インペインティング)APIなど)へ最新の機能として追加されたものです。アップスケーリングにより、小さな画像を大きな画像に拡大し、詳細レベルを維持(または向上)することができます。
Stability AIは、新しいオープンソースの言語モデル StableLMをリリースしました。アルファ版は30億パラメータと70億パラメータのモデルが用意されており、今後150億パラメータから650億パラメータのモデルも用意される予定です。開発者は、CC BY-SA-4.0ライセンスの条件に従って、商用または研究目的で、私たちのStableLM ベースモデルを自由に検査、使用、適応することができます。 2022年、Stability AIは、プロプライエタリなAIに代わる透明でオープンで拡張性のある画期的な画像モデルである Stable Diffusionを一般公開しました。StableLM モデル一式のリリースにより、Stability AI は、基盤AI 技術をすべての人が利用できるようにすることを続けています。StableLMモデルは、テキストやコードを生成でき、様々なアプリケー
日本文化を理解するために日本語入力を重視したテキスト画像生成モデル。従来の英語モデルよりも日本語表現を理解し、ネイティブ感のある高品質な画像生成が可能です。 JSDXL を試す コードをダウンロード モデルについて Stable Diffusion XLStable Diffusion XLは、画像生成機能を大幅に向上させ、画像合成と顔生成を強化することで、魅力的なビジュアルとリアルな美しさを実現します。
Stability AIは、Stable Diffusion Reimagine! を開始することを発表します!Stable Diffusion を通して、ユーザーが画像を試し、デザインを「再想像」するよう呼びかけます。 Stable Diffusion Reimagineは、新しい Clipdrop tool の1つの画像から複数のバリエーションを無制限に生成できるようにしたものです。複雑なプロンプトは必要ありません。ユーザーは、アルゴリズムに画像をアップロードするだけで、好きなだけバリエーションを作成することができます。 下の例では、左上の画像がツールに投入されたオリジナルファイルで、その他の画像はオリジナルからインスピレーションを得た「再構築」された作品です。 寝室がボタン一つで生まれ変わります。 使用方法と制限Stable Diffusion Reimagineは、オリジナルの入力
次のページ
このページを最初にブックマークしてみませんか?
『Stability AI』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く