2026/3/21|更新: 2026/5/12

Stable Diffusion入門ガイド｜インストールから画像生成まで初心者向け完全解説

Q: Q. AUTOMATIC1111とComfyUI、どっちを選ぶ？

初学者はAUTOMATIC1111がUIが直感的で推奨。慣れてきて複雑なワークフローを組みたくなったらComfyUI（ノードベース）に移行します。ComfyUIは設計自由度が極めて高く、プロ用途では事実上のデファクトです。

Q: Q. 商用利用の条件は？

Stable Diffusion本体はライセンス上は商用利用可能ですが、使用するモデル（Checkpoint）ごとにライセンス確認が必須。CivitAIでダウンロードするモデルは作者が個別にライセンスを設定しているため、規約違反のないモデル選定が重要です。

AI徹底カイボウ

中村響·17分で読める

この記事でわかること

Stable Diffusionの仕組み（拡散モデルの基礎）

Windows・Mac・Linux別のインストール手順

WebUI（AUTOMATIC1111・ComfyUI）の使い分け

LoRA・ControlNet・img2imgで画像品質を劇的に上げる方法

読了目安: 10分／最終更新: 2026年4月

Stable Diffusionとは何か──オープンソースが切り拓くAI画像生成の現在地

Stable Diffusionは、Stability AIが開発・公開したオープンソースの画像生成AIである。2022年の初版リリース以降、誰でも無償で利用・改変できるモデルとしてクリエイターやエンジニアの間に急速に浸透した。2026年3月現在、SD3.5やSDXL、さらに元Stability AI研究者が設立したBlack Forest LabsのFluxシリーズまで、選択肢は多岐にわたる。

商用サービスであるMidjourneyやDALL-E 3と異なり、Stable Diffusionはローカル環境で動作させられる点が最大の強みである。クラウドに画像データを送る必要がなく、プライバシーを保ちながら自由にカスタマイズできる。本記事では、環境構築からモデル選定、プロンプト設計、LoRA・ControlNetの活用まで、初心者が一通りの画像生成を行えるようになるための道筋を段階的に示す。

項目	Stable Diffusion	Midjourney	DALL-E 3
ライセンス	オープンソース	商用サービス	商用API
ローカル実行	可能	不可	不可
カスタマイズ性	LoRA/ControlNet等で自在	プロンプトのみ	プロンプト+API設定
月額コスト	電気代+GPU	月額10ドル〜	従量課金
モデル選択の自由	数千種類	固定	固定

画像生成の仕組み──拡散モデルの基本原理

Stable Diffusionは「拡散モデル（Diffusion Model）」と呼ばれる技術に基づいている。画像にノイズを段階的に加えていく「順拡散過程」と、ノイズから画像を復元する「逆拡散過程」の2段階で構成される。ユーザーが入力したテキストプロンプトは、CLIPやT5などのテキストエンコーダを通じてベクトル化され、逆拡散過程を条件付きで誘導する。

SD3.5以降ではMMDiT（Multi-Modal Diffusion Transformer）アーキテクチャが採用され、従来のU-Netベースの構造から大きく進化した。テキストの描画精度やプロンプトへの忠実度が向上し、複雑な構図の生成でも一貫性が保たれるようになった。

潜在空間（Latent Space）で計算を行うため、ピクセル空間での処理と比べてVRAM消費が大幅に少ない
VAE（Variational Autoencoder）が画像と潜在表現の相互変換を担う
サンプラー（Euler、DPM++、UniPCなど）の選択が生成品質と速度に直結する
CFG Scale（Classifier-Free Guidance）でプロンプトへの忠実度を調整する
ステップ数を増やすほど精細になるが、収穫逓減の限界がある

環境構築の選択肢──ローカル・クラウド・WebUI徹底比較

Stable Diffusionを動かす方法は大きく3つに分かれる。それぞれにメリットとデメリットがあり、自分のハードウェアや目的に合った選択が重要である。

環境	初期コスト	月額目安	VRAM制約	セットアップ難度	自由度
ローカル（ComfyUI）	GPU購入費	電気代のみ	GPU依存（8GB〜）	中	最高
Google Colab Pro	なし	約1,179円〜	T4:15GB / A100:40GB	低	中
WebUI（Stability AI API等）	なし	従量課金	なし	最低	低
RunPod / Vast.ai	なし	時間課金	選択可（24GB〜）	中	高

ローカル環境は、NVIDIA GeForce RTX 4060以上（VRAM 8GB〜）を搭載したPCであれば十分に動作する。SD3.5 Mediumは約10GBのVRAMで動作し、FP8量子化を適用したSD3.5 Largeなら約11GBまで削減可能である。

Google Colabの無料枠では、WebUIベースのインターフェース（AUTOMATIC1111やGradio系）の利用が制限されている。Colab Proへのアップグレードが事実上の前提となっている点は認識しておくべきだ。

RunPodやVast.aiといったGPUクラウドサービスも有力な選択肢である。時間単位の課金でA100やH100クラスのGPUを利用でき、大規模モデルの実験に向いている。ただし、セッション管理やデータ永続化には一定の知識が必要となる。

自分のユースケースを整理した上で環境を選ぶことが、無駄な投資を避ける第一歩である。週に数枚の画像を生成する程度ならWebUI系サービスで十分であり、日常的に大量生成するならローカル環境の構築が長期的にはコスト効率が良い。

ComfyUIでのセットアップ手順──ノードベースの柔軟なワークフロー

2026年現在、Stable Diffusionのフロントエンドとして最も勢いがあるのがComfyUIである。ノード（ブロック）をつなぎ合わせてワークフローを構築する設計で、必要な処理だけをロードするため、AUTOMATIC1111と比較してメモリ消費が少ない。

ステップ	作業内容	備考
1	ComfyUI Desktopをダウンロード	Windows/Mac/Linux対応。公式GitHubから取得
2	インストーラを実行	GPUドライバ（CUDA対応）が事前に必要
3	モデルファイルを配置	checkpointsフォルダにsafetensorsファイルを格納
4	VAEファイルを配置	vaeフォルダに配置。モデルに内蔵されている場合は不要
5	ComfyUIを起動	ブラウザで自動的にUIが開く
6	デフォルトワークフローで生成テスト	Load Default → Queue Promptで実行
7	カスタムノードの追加	ComfyUI Managerで拡張機能を管理

モデルファイルの入手先としては、Hugging FaceとCivitaiが二大プラットフォームである。Civitaiはコミュニティ投稿のモデルやLoRAが豊富で、プレビュー画像付きで比較しやすい。Hugging Faceは公式モデルの配布元として信頼性が高い。

ComfyUI Desktopは同一マシン上でのみ利用可能であるため、リモートアクセスが必要な場合はマニュアルインストール（Pythonベースのセットアップ）を選択する。

初回起動時にモデルファイルがない場合、ComfyUIはデフォルトワークフローの実行時にエラーを返す。最低限、チェックポイントファイル1つとVAEファイル（モデルに内蔵されていない場合）を配置してから起動するのが確実である。

また、ComfyUI Managerを導入しておくと、カスタムノードのインストールや更新がUI上で完結するため、拡張機能の管理が大幅に楽になる。ControlNetやIP-Adapterなどの追加機能も、Manager経由でワンクリック導入が可能である。

主要モデルの特徴と選び方──SDXL・SD3.5・Flux・派生モデル

モデル選びはStable Diffusion活用の最重要ポイントの一つである。目的や環境に応じた適切な選択が生成品質を左右する。

モデル	パラメータ数	推奨VRAM	得意分野	解像度	ライセンス
SDXL 1.0	6.6B	8GB〜	汎用・高解像度	1024x1024	オープン
SD3.5 Medium	2.5B	10GB〜	軽量・高品質	0.25〜2MP	Stability Community
SD3.5 Large	8.1B	11GB〜（FP8）	最高品質・テキスト描画	1MP	Stability Community
SD3.5 Large Turbo	8.1B	11GB〜（FP8）	高速生成	1MP	Stability Community
Flux.1 Dev	12B	12GB〜	自然言語プロンプト	可変	Apache 2.0
Flux.2	32B	16GB〜（FP8）	最先端品質・マルチリファレンス	4MP対応	商用+オープンウェイト

SDXLは最もエコシステムが成熟しており、LoRAやControlNetの対応モデルが群を抜いて多い。初心者が最初に触れるモデルとして安定した選択肢である。

SD3.5 MediumはMMDiTアーキテクチャの恩恵でパラメータ数が少ないにもかかわらず高品質な生成が可能であり、コンシューマ向けGPUでの運用に適している。

Flux.2は2026年1月にリリースされたBlack Forest Labsの最新モデルであり、マルチリファレンス機能により最大10枚の参照画像を基にした一貫性のある生成が可能である。ただし32Bパラメータのフルモデルは90GBのVRAMを要するため、FP8量子化が実質必須となる。

初心者への推奨パスは明確である。まずSDXLで基本操作を覚え、次にSD3.5 Mediumで最新アーキテクチャの品質を体感し、必要に応じてFluxへ進む。段階を踏むことで、各モデルの特性を比較する目が養われる。

Civitaiには、公式モデルをベースにファインチューニングされた派生モデル（マージモデル）も多数公開されている。特定のアートスタイルやリアリズムに特化したものが多く、目的に合ったモデルを見つけることで生成効率が向上する。

プロンプトの書き方とパラメータ設定のコツ

プロンプト設計は画像生成の品質を決定づける核心的なスキルである。モデルごとにプロンプトの効き方が異なるため、基本原則を押さえた上で調整していく姿勢が求められる。

パラメータ	推奨範囲	効果
CFG Scale	5〜12	低いと自由度が上がり、高いとプロンプトに忠実になる
Steps	20〜50	多いほど精細だが30以降は効果が逓減する
サンプラー	Euler a / DPM++ 2M Karras	速度と品質のバランスが良い定番
解像度	モデル推奨値に合わせる	SDXL: 1024x1024、SD3.5: 1024x1024
Seed	-1（ランダム）	固定すると同条件で再現可能
Batch Size	1〜4	VRAM許容範囲で複数同時生成

ポジティブプロンプトの基本構造:

被写体の説明（主語）を冒頭に置く
画風やスタイルの指定を続ける（photorealistic, anime style, oil painting等）
品質タグを末尾に追加する（masterpiece, best quality, highly detailed等）
Flux系モデルでは自然な英文で記述するほうが効果的である

ネガティブプロンプトの活用:

不要な要素を明示的に排除する（worst quality, blurry, deformed hands等）
SD3.5以降ではネガティブプロンプトの影響度が旧モデルより低下しているが、品質底上げには依然有効である
Fluxモデルではネガティブプロンプトの効果が限定的であり、ポジティブプロンプトの精度向上に注力するほうが効率的である

プロンプトの試行錯誤においては、Seedを固定した状態でプロンプトの一部だけを変更する手法が有効である。構図や色調の変化を1要素ずつ確認でき、どの単語がどの効果を持つのかを体系的に理解する助けとなる。

LoRA・ControlNetで表現の幅を広げる

ベースモデルだけでは実現が難しい表現を可能にするのが、LoRA（Low-Rank Adaptation）とControlNetである。いずれもベースモデルを再学習させることなく、追加的な制御を行う技術だ。

技術	概要	ファイルサイズ	主な用途
LoRA	低ランク行列で特定のスタイルや被写体を学習	10〜200MB	特定キャラクター、画風の再現
ControlNet	入力画像（ポーズ、線画、深度情報等）で構図を制御	700MB〜1.5GB	ポーズ指定、線画着色、背景合成
Control-LoRA	ControlNetの機能をLoRAサイズで実現	約25MB	軽量な構図制御
IP-Adapter	参照画像のスタイルや被写体を転写	50〜100MB	スタイル転写、キャラクター一貫性

LoRAの導入手順:

CivitaiまたはHugging FaceからLoRAファイル（safetensors形式）をダウンロードする
ComfyUIのmodels/lorasフォルダに配置する
ワークフロー内にLoRA Loaderノードを追加し、モデルとCLIPの両方に接続する
Strengthパラメータ（0.5〜1.0が目安）で効果の強度を調整する

ControlNetの主要モード:

Canny: エッジ（輪郭線）を検出して構図を維持する
Depth: 深度マップで奥行き構造を制御する
OpenPose: 人体の関節位置からポーズを指定する
Tile: 低解像度画像のアップスケール時に構造を保持する

Stability AIがリリースしたControl-LoRAは、ControlNetの機能を約25MBという軽量なファイルで実現する技術であり、コンシューマGPUでの利用に適している。ComfyUIおよびStableSwarmUIで対応済みである。

複数のLoRAを同時に適用する場合は、各LoRAのStrengthを0.5〜0.7程度に抑えることで破綻を防げる。ControlNetとLoRAの併用も可能であり、ポーズ指定+画風変換のような複合的な制御が実現する。

IP-Adapterは参照画像のスタイルや被写体の特徴をそのまま転写する技術であり、テキストプロンプトだけでは表現しにくい「雰囲気」の再現に適している。Flux.2のマルチリファレンス機能と思想は近いが、SDXL環境でも利用できる点が強みである。

これらの拡張技術を組み合わせることで、プロンプトだけでは到達できない精度の画像制御が可能になる。最初はLoRA単体から試し、慣れてきたらControlNetやIP-Adapterを段階的に導入していくのが現実的なアプローチである。

AI画像生成の先にあるもの──あなたは何を「つくる」のか

Stable Diffusionのエコシステムは、毎月のように新モデル、新技術が登場し続けている。2026年のいまこの瞬間も、Flux.2のマルチリファレンス機能やSD3.5のMMDiTアーキテクチャが生成品質の水準を押し上げている。

しかし、ツールの性能がどれだけ上がっても、「何を生成するか」を決めるのは人間の側である。プロンプトの一語、LoRAの組み合わせ、ControlNetのポーズ指定──そのすべてに意図を込められるのがStable Diffusionの本質的な価値だ。

活用シーン	具体例
個人クリエイション	イラスト制作、コンセプトアート、同人活動
ビジネス利用	広告素材、プロダクトモックアップ、Webデザイン
教育・研究	拡散モデルの理解、論文の図版生成
ゲーム開発	テクスチャ生成、キャラクターデザインの試作
映像制作	ストーリーボード、背景美術のプロトタイプ

オープンソースであるがゆえに、このツールは使い手の姿勢をそのまま映し出す。技術を学び、試行錯誤を重ね、自分だけの表現を磨いていく過程にこそ、AI画像生成の真価がある。

あなたがStable Diffusionで最初に生成したい画像は、どのようなものだろうか。そしてその一枚は、あなたのクリエイティブな活動をどこへ連れていくのだろうか。

導入5ステップ

ステップ1: ComfyUI Desktopをインストールする

公式GitHubからWindows/Mac/Linux用インストーラを取得し、CUDA対応GPUドライバを事前に導入する。VRAM 8GB以上のNVIDIA GPUかM2 Pro以上のApple Siliconを確保する。

ステップ2: モデルファイルとVAEを配置する

Hugging FaceまたはCivitaiからSDXLまたはSD3.5 Mediumのsafetensorsをダウンロードする。models/checkpoints にチェックポイント、models/vae にVAEを配置する。

ステップ3: ComfyUI Managerを導入して拡張機能を管理する

ComfyUI Managerをインストールし、ControlNet・IP-Adapter・カスタムノードをUI上でワンクリック導入する。カスタムノードの更新もManager経由で完結させる。

ステップ4: プロンプトとパラメータを設定し初回生成する

CFG Scaleを5〜12、Stepsを20〜50、サンプラーをEuler aまたはDPM++ 2M Karrasに設定する。被写体→スタイル→品質タグの順でポジティブプロンプトを記述する。

ステップ5: LoRAとControlNetで画像品質を制御する

Civitaiから入手したLoRAを models/loras に配置し、Strength 0.5〜0.7で適用する。ControlNetのCanny・Depth・OpenPose・Tileで構図とポーズを指定し、複数技術を組み合わせて精度を高める。

よくある質問（FAQ）

Q. GPUはどのくらい必要？

VRAM 8GB以上を推奨、12GB以上が快適です。RTX 3060以上なら実用レベル、RTX 4090なら大型モデルとLoRA併用が余裕。Apple Siliconなら M2 Pro以上（メモリ16GB以上）で動きます。低スペックではクラウド（Paperspace・RunPod）の時間課金が現実的です。

Q. AUTOMATIC1111とComfyUI、どっちを選ぶ？

初学者はAUTOMATIC1111がUIが直感的で推奨。慣れてきて複雑なワークフローを組みたくなったらComfyUI（ノードベース）に移行します。ComfyUIは設計自由度が極めて高く、プロ用途では事実上のデファクトです。

Q. 商用利用の条件は？

Stable Diffusion本体はライセンス上は商用利用可能ですが、使用するモデル（Checkpoint）ごとにライセンス確認が必須。CivitAIでダウンロードするモデルは作者が個別にライセンスを設定しているため、規約違反のないモデル選定が重要です。

このような記事を毎週お届けします

メールアドレスだけで登録完了。いつでも解除できます。

タグ:#Machine Learning

中村響AIリサーチャー / LLMスペシャリスト

東京大学大学院情報理工学系研究科修了。大手IT企業のAI研究部門を経て、LLM・生成AIの技術解説と社会実装を専門に執筆活動を行う。Claude、GPT、Geminiなど主要モデルの比較分析や、プロンプトエンジニアリング、RAG、AIエージェント設計に精通。AI技術を「使える知識」に変換することをモットーに、実践的な解説を心がけている。

※ AIを活用して取材・執筆を行うバーチャルジャーナリストです

この記事が参考になったら、シェアしてください。

DeepMindの「AIコ・クリニシャン」、プライマリケア98件中97件でエラーゼロ——医療AIが診断支援の主役となる日（2026年5月）

【2026年最新】エンジニア年収ランキングTOP15｜職種別・スキル別に徹底比較

機械学習エンジニアの年収・スキル・転職市場を徹底解説【2026年版】

週刊テックニュースレター