【Stable Diffusion】使用教程:从原理到实战,全面掌握AI绘画
一、Stable Diffusion 概述
1.1 什么是Stable Diffusion?
Stable Diffusion(简称SD)是一种潜在扩散模型(Latent Diffusion Model),能够根据文本描述生成高质量图像,支持图像修复、风格迁移、超分辨率等多种任务。其核心优势在于开源免费,用户可通过微调模型、插件扩展实现高度个性化的创作,远超Midjourney等付费工具的可控性。
1.2 核心原理
- 扩散模型(Diffusion Model):通过逐步去噪过程将随机噪声转化为目标图像。SD在**潜在空间(Latent Space)**中进行扩散,显著降低计算量。
- 文本编码器(CLIP):将文本提示转化为向量,引导图像生成方向。
- 模型架构:包含U-Net网络(去噪)、VAE(潜在空间编解码)、以及文本条件模块。
1.3 与Midjourney的对比
- 开源 vs 闭源:SD允许自定义模型、插件,Midjourney依赖官方更新。
- 本地部署 vs 云端服务:SD可离线运行,Midjourney需订阅且受服务器限制。
- 硬件要求:SD依赖高性能显卡(推荐NVIDIA RTX 3060+,显存≥8GB),Midjourney无本地硬件需求。
二、安装与配置
2.1 硬件与系统要求
- 显卡:NVIDIA显卡(显存≥4GB,推荐12GB以上),AMD/核显需使用CPU渲染(速度较慢)。
- 内存:≥8GB,推荐16GB。
- 硬盘:固态硬盘(SSD)优先,预留≥30GB空间。
- 系统:Windows 10/11、Linux、macOS(仅限Apple Silicon芯片)。
2.2 一键安装整合包(推荐)
- 下载整合包:推荐B站UP主秋葉aaaki的整合包(含WebUI、依赖库、常用插件)。
- 安装依赖:双击运行
启动器运行依赖.exe
,按提示完成安装。 - 解压与启动:解压整合包至非中文路径,双击
A启动器
,点击一键启动,等待命令行加载完成(自动跳转至浏览器界面http://127.0.0.1:7860
)。
2.3 常见问题解决
- 网络报错:开启全局代理或使用**开发者边车(DevSidecar)**加速下载。
- 显存不足:降低分辨率、关闭高清修复、启用
--medvram
参数。 - 汉化界面:通过扩展安装中文语言包,或手动修改
settings.json
。
三、基础使用:文生图(txt2img)
3.1 界面功能概览
- 模型选择:切换主模型(Checkpoint),决定生成风格(如动漫、写实)。
- 提示词输入:
- 正向提示词:描述画面内容,格式为英文逗号分隔,如
best quality, masterpiece, 1girl, long hair
。 - 反向提示词:排除不良元素,如
lowres, bad anatomy, mutated hands
。
- 正向提示词:描述画面内容,格式为英文逗号分隔,如
- 参数设置:
- 采样方法:推荐
DPM++ 2M Karras
(平衡速度与质量)、Euler a
(快速测试)。 - 采样步数(Steps):20-30步(细节不足时可提高至40)。
- 分辨率:默认512×512,过高易导致多主体或畸形。
- 提示词相关性(CFG Scale):7-12(值越高越贴合提示词)。
- 采样方法:推荐
3.2 提示词编写技巧
- 权重控制:使用
(keyword:1.5)
增加权重,(keyword:0.7)
降低权重。 - 分层描述:按质量→主体→细节→环境顺序排列,如:
masterpiece, best quality, 1girl, red dress, standing in a forest, sunlight, detailed eyes
. - 反向提示词模板:
nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits
.
四、高级功能与插件
4.1 模型类型与加载
模型类型 | 功能说明 | 文件格式 |
---|---|---|
Checkpoint | 主模型,决定整体风格(如chilloutmix 写实、AnythingV5 动漫) | .ckpt , .safetensors |
LoRA | 微调模型,叠加特定风格(如服装、画风) | .safetensors |
VAE | 变分自编码器,调整色彩与细节(部分模型内置) | .pt |
Embedding | 文本嵌入模型,压缩特征描述(如EasyNegative 优化负面效果) | .pt |
4.2 必装插件推荐
- ControlNet:通过边缘检测、姿态估计等控制生成结构,实现精准构图。
- ADetailer:自动修复面部、手部细节,避免崩坏。
- Dynamic Thresholding:动态调整提示词权重,增强画面稳定性。
- LoRA训练工具:自定义训练风格模型(需准备数据集)。
4.3 图生图(img2img)与高清修复
- 重绘幅度(Denoising Strength):0.3-0.7(值越高变化越大)。
- 放大算法:
ESRGAN_4x
(保留细节)、SwinIR_4x
(适合低分辨率图)。 - 局部重绘:使用蒙版修改特定区域(如换装、换背景)。
五、实战案例与调参技巧
5.1 动漫风格生成
- 模型选择:
AnythingV5
+Counterfeit-V3.0
LoRA。 - 提示词:
(masterpiece:1.2), best quality, 1girl, pink hair, school uniform, classroom, sunlight, (detailed eyes:1.3), (floating petals:0.8)
- 参数:采样步数25,CFG=9,分辨率512×768。
5.2 写实人像优化
- 启用ADetailer:修复面部与手部。
- ControlNet配置:使用
openpose
骨架图控制姿势。 - 反向提示词:加入
blurry, deformed iris, asymmetric eyes
避免瑕疵。
六、常见问题与解决方案
问题 | 解决方案 |
---|---|
显存不足(OOM) | 降低分辨率、关闭高清修复、启用--xformers 优化显存。 |
生成速度慢 | 使用DDIM 或Euler a 采样器,减少采样步数。 |
画面模糊 | 检查VAE是否加载,提高CFG值,启用高清修复(重绘幅度0.3-0.5)。 |
多手/多脚 | 强化反向提示词(如extra limbs ),使用ControlNet约束姿态。 |
七、资源推荐与学习路径
- 模型下载:
- CivitAI(https://civitai.com):海量模型、提示词参考。
- Hugging Face(https://huggingface.co):官方模型库。
- 社区支持:
- B站:秋葉aaaki、Nenly同学等UP主的实战教程。
- GitHub:关注
AUTOMATIC1111/stable-diffusion-webui
官方更新。
结语
Stable Diffusion的潜力在于其无限的可扩展性,通过不断尝试新模型、插件与参数组合,你将逐步掌握AI绘画的精髓。建议从模仿优秀案例起步,逐步探索个性化创作,最终实现“所想即所得”的自由表达。