当前位置：首页 > ds >正文

【Stable Diffusion】使用教程：从原理到实战，全面掌握AI绘画

ds 2025/7/1 13:50:28

一、Stable Diffusion 概述

1.1 什么是Stable Diffusion？

Stable Diffusion（简称SD）是一种潜在扩散模型（Latent Diffusion Model），能够根据文本描述生成高质量图像，支持图像修复、风格迁移、超分辨率等多种任务。其核心优势在于开源免费，用户可通过微调模型、插件扩展实现高度个性化的创作，远超Midjourney等付费工具的可控性。

1.2 核心原理

扩散模型（Diffusion Model）：通过逐步去噪过程将随机噪声转化为目标图像。SD在**潜在空间（Latent Space）**中进行扩散，显著降低计算量。
文本编码器（CLIP）：将文本提示转化为向量，引导图像生成方向。
模型架构：包含U-Net网络（去噪）、VAE（潜在空间编解码）、以及文本条件模块。

1.3 与Midjourney的对比

开源 vs 闭源：SD允许自定义模型、插件，Midjourney依赖官方更新。
本地部署 vs 云端服务：SD可离线运行，Midjourney需订阅且受服务器限制。
硬件要求：SD依赖高性能显卡（推荐NVIDIA RTX 3060+，显存≥8GB），Midjourney无本地硬件需求。

二、安装与配置

2.1 硬件与系统要求

显卡：NVIDIA显卡（显存≥4GB，推荐12GB以上），AMD/核显需使用CPU渲染（速度较慢）。
内存：≥8GB，推荐16GB。
硬盘：固态硬盘（SSD）优先，预留≥30GB空间。
系统：Windows 10/11、Linux、macOS（仅限Apple Silicon芯片）。

2.2 一键安装整合包（推荐）

下载整合包：推荐B站UP主秋葉aaaki的整合包（含WebUI、依赖库、常用插件）。
安装依赖：双击运行启动器运行依赖.exe，按提示完成安装。
解压与启动：解压整合包至非中文路径，双击A启动器，点击一键启动，等待命令行加载完成（自动跳转至浏览器界面http://127.0.0.1:7860）。

2.3 常见问题解决

网络报错：开启全局代理或使用**开发者边车（DevSidecar）**加速下载。
显存不足：降低分辨率、关闭高清修复、启用--medvram参数。
汉化界面：通过扩展安装中文语言包，或手动修改settings.json。

三、基础使用：文生图（txt2img）

3.1 界面功能概览

模型选择：切换主模型（Checkpoint），决定生成风格（如动漫、写实）。
提示词输入：
- 正向提示词：描述画面内容，格式为英文逗号分隔，如best quality, masterpiece, 1girl, long hair。
- 反向提示词：排除不良元素，如lowres, bad anatomy, mutated hands。
参数设置：
- 采样方法：推荐DPM++ 2M Karras（平衡速度与质量）、Euler a（快速测试）。
- 采样步数（Steps）：20-30步（细节不足时可提高至40）。
- 分辨率：默认512×512，过高易导致多主体或畸形。
- 提示词相关性（CFG Scale）：7-12（值越高越贴合提示词）。

3.2 提示词编写技巧

权重控制：使用(keyword:1.5)增加权重，(keyword:0.7)降低权重。
分层描述：按质量→主体→细节→环境顺序排列，如：
masterpiece, best quality, 1girl, red dress, standing in a forest, sunlight, detailed eyes.
反向提示词模板：
nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits.

四、高级功能与插件

4.1 模型类型与加载

模型类型	功能说明	文件格式
Checkpoint	主模型，决定整体风格（如`chilloutmix`写实、`AnythingV5`动漫）	`.ckpt`, `.safetensors`
LoRA	微调模型，叠加特定风格（如服装、画风）	`.safetensors`
VAE	变分自编码器，调整色彩与细节（部分模型内置）	`.pt`
Embedding	文本嵌入模型，压缩特征描述（如`EasyNegative`优化负面效果）	`.pt`

4.2 必装插件推荐

ControlNet：通过边缘检测、姿态估计等控制生成结构，实现精准构图。
ADetailer：自动修复面部、手部细节，避免崩坏。
Dynamic Thresholding：动态调整提示词权重，增强画面稳定性。
LoRA训练工具：自定义训练风格模型（需准备数据集）。

4.3 图生图（img2img）与高清修复

重绘幅度（Denoising Strength）：0.3-0.7（值越高变化越大）。
放大算法：ESRGAN_4x（保留细节）、SwinIR_4x（适合低分辨率图）。
局部重绘：使用蒙版修改特定区域（如换装、换背景）。

五、实战案例与调参技巧

5.1 动漫风格生成

模型选择：AnythingV5 + Counterfeit-V3.0 LoRA。

提示词：

(masterpiece:1.2), best quality, 1girl, pink hair, school uniform, 
classroom, sunlight, (detailed eyes:1.3), (floating petals:0.8)

参数：采样步数25，CFG=9，分辨率512×768。

5.2 写实人像优化

启用ADetailer：修复面部与手部。
ControlNet配置：使用openpose骨架图控制姿势。
反向提示词：加入blurry, deformed iris, asymmetric eyes避免瑕疵。

六、常见问题与解决方案

问题	解决方案
显存不足（OOM）	降低分辨率、关闭高清修复、启用`--xformers`优化显存。
生成速度慢	使用`DDIM`或`Euler a`采样器，减少采样步数。
画面模糊	检查VAE是否加载，提高CFG值，启用高清修复（重绘幅度0.3-0.5）。
多手/多脚	强化反向提示词（如`extra limbs`），使用ControlNet约束姿态。

七、资源推荐与学习路径

模型下载：
- CivitAI（https://civitai.com）：海量模型、提示词参考。
- Hugging Face（https://huggingface.co）：官方模型库。
社区支持：
- B站：秋葉aaaki、Nenly同学等UP主的实战教程。
- GitHub：关注AUTOMATIC1111/stable-diffusion-webui官方更新。