画像生成AI

Stable Diffusionとは何か — 画像生成AIの仕組みと始め方

[]

筆者　天秤AIメディア編集部／ GMO天秤AI株式会社

生成AIの最新情報や使い方ガイド、活用事例などを紹介するメディアです。
AI初心者の方向けの情報からニッチな情報まで発信中！

Stable Diffusionとは何か — 画像生成AIの仕組みと始め方

Stable Diffusionは、テキストから画像を生成するオープンソースのAIモデルである。2022年にミュンヘン大学のCompVisグループ、Runway、Stability AIが共同で公開した。ソースコードが無料で公開されているため、自分のPCにインストールして使える。商用利用も可能で、クラウドサービスに依存しない画像生成環境を手元に構築できる点が、他の画像生成AIとの決定的な違いになっている。

Stable Diffusionの仕組み — 拡散モデルとは

Stable Diffusionの中核にあるのは「拡散モデル（Diffusion Model）」と呼ばれる技術だ。

砂嵐のようなノイズ画像がある。拡散モデルは、このノイズから少しずつノイズを取り除いていくことで、意味のある画像を作り出す。インクを水に垂らすと広がっていく現象を逆再生するようなもので、拡散（広がる）の逆方向に進むから「逆拡散」と呼ばれる。

学習の段階では、大量の画像にノイズを段階的に加えていき、「ノイズの加え方」を記憶する。生成の段階では、その記憶を逆向きにたどって、ノイズだらけの画像から元の画像を復元する。ただし復元するのは学習データそのものではなく、テキストの指示（プロンプト）に合った新しい画像だ。

Stable Diffusionが「潜在拡散モデル（Latent Diffusion Model）」と呼ばれる理由は、画像のピクセルを直接扱わず、圧縮された「潜在空間」で計算を行うからだ。元の画像をオートエンコーダで圧縮し、小さなデータに変換してからノイズ除去を行う。計算量が桁違いに少なくなるため、一般的なGPUでも動作する。この仕組みが、Stable Diffusionを個人のPCで動かせるものにした。

他の画像生成AIとの違い

画像生成AIは複数のサービスが存在する。それぞれの特徴を整理した。

項目	Stable Diffusion	Midjourney	DALL-E（GPT Image）	Nano Banana Pro
開発元	Stability AI	Midjourney社	OpenAI	Google DeepMind
公開形態	オープンソース	クラウドサービス	ChatGPTに統合	Geminiに統合
ローカル実行	可能	不可	不可	不可（APIは利用可）
料金	無料（PC代のみ）	月額10ドルから	ChatGPT Plus（月額20ドル）	無料枠あり、AI Pro/Ultraで拡張
商用利用	可能（ライセンス確認要）	プラン依存	可能	可能
カスタマイズ性	非常に高い	低い	低い	低い
テキスト描画	モデルによる	やや苦手	得意	日本語も高精度
得意な用途	キャラクター一貫性、特殊スタイル	アート、コンセプトアート	プロンプト忠実度、テキスト入り画像	日本語テキスト入り画像、図解

Midjourneyは2025年4月にV7をリリースし、美的表現の完成度が高い。DALL-E 3は2025年12月にGPT Image 1.5へ移行し、ChatGPT内でネイティブに画像を生成する形に変わった。Nano Banana Proは2025年11月にリリースされ、日本語のテキストレンダリング精度の高さが特徴的だ。

Stable Diffusionの最大の強みは自由度にある。モデルの入れ替え、LoRA（追加学習データ）の適用、ControlNet（ポーズや構図の制御）の利用など、生成プロセスのあらゆる段階に手を入れられる。クラウドサービスでは得られない制御性だ。

バージョンの変遷

Stable Diffusionは公開以来、複数のバージョンが登場している。

Stable Diffusion 1.5は2022年にリリースされた。パラメータ数は約8.6億で、軽量ながら実用的な画質を実現した。コミュニティが大量の追加モデルやLoRAを作成しており、現在でも対応素材が最も豊富なバージョンだ。

SDXL（Stable Diffusion XL）は2023年にリリースされた。パラメータ数は約35億に増え、1024x1024の高解像度画像を生成できるようになった。画質と構図の精度が大きく向上した一方、要求するVRAMも増えた。

Stable Diffusion 3.5は2024年10月にリリースされた最新世代で、3つのバリエーションがある。Large（81億パラメータ）は最高品質、Large Turbo（81億パラメータ）は4ステップで高速生成、Medium（25億パラメータ）はMMDiT-Xアーキテクチャを採用し、消費者向けハードウェアでも動作する。プロンプトへの忠実度とテキスト描画能力が目に見えて良くなった。

動作環境の要件

Stable Diffusionをローカルで動かすには、GPUの性能が鍵になる。

項目	最低要件	推奨環境	快適環境
GPU	NVIDIA製 VRAM 4GB	NVIDIA製 VRAM 8GB以上	NVIDIA製 VRAM 12GB以上
CPU	4コア以上	8コア以上	8コア以上
メモリ	8GB	16GB	32GB
ストレージ	SSD 20GB空き	SSD 50GB空き	SSD 100GB空き
OS	Windows 10/11、Linux	Windows 10/11、Linux	Windows 10/11、Linux

SD 1.5はVRAM 4GBでも動作するが、SDXLやSD 3.5を使う場合はVRAM 12GB以上を確保したい。モデルファイルは1つあたり2GBから8GB程度あり、複数モデルを使い分けるならストレージの余裕も必要になる。

macOSでも動作するが、Apple Silicon（M1以降）のGPU性能はNVIDIA製と比べて生成速度が遅い。本格的に取り組むならWindows PCかLinux環境が現実的だ。

GPUのスペックが足りない場合は、Google Colabなどのクラウドサービスを使う選択肢もある。無料枠でも試用は可能で、自分のPCスペックを確認してから環境を選ぶとよい。

始め方 — 3つの選択肢

Stable Diffusionを使い始めるルートは大きく3つある。

クラウドで試す

PCスペックを問わず始められる方法がGoogle Colabだ。ブラウザからGPU環境にアクセスし、Stable Diffusionを実行できる。無料枠には制限があるが、自分に合うかどうかを確かめるには十分だ。専用のノートブックがGitHub上に多数公開されており、コピーして実行するだけで画像生成が始まる。

ローカルにインストールする

自分のPCに環境を構築する方法は2つある。

1つ目はStabilityMatrixを使う方法で、これが現在の標準的な始め方だ。StabilityMatrixはStable Diffusionの各種WebUI（AUTOMATIC1111、Forge、ComfyUI等）をワンクリックでインストールできるパッケージマネージャーで、Pythonやgitの知識がなくても環境構築できる。

2つ目は手動でWebUIをインストールする方法だ。AUTOMATIC1111は歴史が長くドキュメントが充実している。Forge（stable-diffusion-webui-forge）はVRAM消費を抑えつつ生成速度を上げた改良版で、スペックに余裕がないPCならForgeを選ぶとよい。ComfyUIはノードベースのUIで、ワークフローを視覚的に組み立てられる。柔軟性は最も高いが、学習コストも高い。

APIで利用する

Stability AIはAPIを提供しており、プログラムから画像生成を呼び出せる。自社サービスに画像生成機能を組み込みたい場合はこのルートになる。Hugging Faceの推論APIも利用可能だ。

ライセンスと商用利用

Stable Diffusionの公式モデル（SD 1.5、SDXL、SD 3.5）は商用利用が可能だ。SD 1.5とSDXLはCreativeML OpenRAIL-Mライセンスで提供されており、SD 3.5はStability AI Community Licenseが適用される。

ただし、コミュニティが作成した派生モデル（Civitai等で配布されているもの）は、個別にライセンスが異なる。商用利用する場合は、使用するモデルごとにHugging FaceやCivitaiのライセンス表記を確認する必要がある。

生成した画像の著作権については、Stability AIは権利を主張しないとしている。日本の著作権法では、AIが自律的に生成した画像には著作権が発生しないとする見解が一般的だが、人間の創作的関与が認められる場合は著作権が成立しうる。この領域は法整備が進行中であり、商用利用の際は最新の法的状況を確認したい。

Stable Diffusionに向いている用途

ここまでの情報を踏まえると、Stable Diffusionが強みを発揮するのは以下のような場面だ。

データの外部送信を避けたい場合。ローカル実行なので、生成に使うプロンプトや画像がサーバーに送信されない。機密性の高い業務で使いやすい。

キャラクターの一貫性が求められる場合。同じキャラクターを異なるポーズや場面で描き分けるには、LoRAやControlNetを組み合わせる。クラウドサービスでは難しい精度で一貫性を保てる。

大量生成が必要な場合。ローカル実行なら従量課金がかからない。サムネイル、バナー、SNS素材などを大量に作る場面で費用を抑えられる。

一方で、テキストを含む画像の生成や、プロンプトの解釈精度を重視するなら、DALL-E（GPT Image）やNano Banana Proのほうが適している場面もある。用途に応じて使い分けるのが実用的だ。

Stable Diffusionとは何だったか

Stable Diffusionは、画像生成AIをオープンソースとして個人の手元に持ってきた存在だ。潜在拡散モデルという技術で計算コストを下げ、一般的なGPUでも動くようにしたことが、画像生成AIの普及を加速させた。

2024年以降、MidjourneyやDALL-E、Nano Banana Proといったクラウドサービスの品質が向上し、手軽さではそちらが上回る場面も増えた。それでもStable Diffusionには、モデルの選択からパイプラインの構成まで自分で決められる自由がある。この自由度は、クラウドサービスのUIからは得られない。

画像生成AIをどう使うかは、何を作りたいかで決まる。手軽に試したいならクラウドサービスから始めればよいし、細かく制御したいならStable Diffusionの環境を構築する価値がある。どちらが正解ということではなく、自分の用途に合った道具を選ぶことが大事だ。

よくある質問

Stable Diffusionは無料で使えるか

オープンソースソフトウェアなので、ソフトウェア自体は無料だ。ただし、ローカルで動かすにはNVIDIA製GPU搭載のPCが必要になる。Google Colabを使えばPC側のスペックは問わないが、無料枠には利用制限がある。

GPUはNVIDIA製でないと動かないのか

AMD製GPUやApple Silicon（M1/M2/M3/M4）でも動作するが、NVIDIA製と比べて対応ソフトウェアが少なく、生成速度も劣る。NVIDIA製GPUのCUDAが事実上の標準になっている。

どのバージョンから始めるべきか

VRAM 8GB以下のGPUならSD 1.5系のモデルが安定する。VRAM 12GB以上あればSDXLを、VRAM 16GB以上あればSD 3.5 Mediumを試すとよい。いきなり最新版を選ぶよりも、自分のGPUスペックに合ったバージョンから始めるのが確実だ。

生成した画像を商用利用してよいか

公式モデルで生成した画像は商用利用可能だ。ただし、コミュニティ配布の派生モデルはライセンスが異なる場合がある。使用するモデルのライセンスを個別に確認すること。

MidjourneyやDALL-Eとどちらがよいか

一概に比較できない。手軽さを重視するならMidjourneyやDALL-E、カスタマイズ性やデータの機密性を重視するならStable Diffusionが合う。両方を使い分けている人も多い。

この記事を共有：