当前位置: 首页 > web >正文

AI绘图-Stable Diffusion-WebUI的基本用法

前言

  WebUI中的功能十分多无法一一说明,个人多进行尝试和探索才能更加熟练工具的应用;在本章中将会介绍Stable Diffusion中WebUI的安装、常见模块介绍以及文生图、图生图的常用方法


1 WebUI安装和介绍:


1.1 安装

  • B站搜索秋叶,通过夸克网盘进行安装

在这里插入图片描述

  • 视频中自带Stable Diffusion安装教程,安装完成后启动Stable Diffusion

在这里插入图片描述

名称功能
高级选项调整生成引擎、显存优化等,一般来说是默认设置
疑难解答在生成图片出现错误的时候,这里进行扫描并生成错误报告
版本管理对SD、扩展插件的版本进行升级以及管理
模型管理对生成图像时使用到的各种模型进行管理
  • 简易的一图流教程:

在这里插入图片描述

  • 点击一键启动后打开浏览器

在这里插入图片描述


1.2 介绍

1.2.1 Stable Diffusion模型

 选择之前下载过的模型,大模型是生成图片的基础,一般分为真实类型、3D类型、动漫类型


模型下载网站可以选择Civitai、liblib

在这里插入图片描述


大模型下载可以在网站的筛选器中选择checkpoint

在这里插入图片描述


选择好下载的模型之后,可以在模型管理中打开大模型所在的文件夹

在这里插入图片描述


进入文件夹后将下载好的大模型文件放入
在这里插入图片描述


1.2.2 VAE模型和CLIP终止层数

VAE模型:个人理解上来看与添加滤镜比较相似,一般默认选择自动

在这里插入图片描述


CLIP终止层数:目的是跳过一些不必要的图像生成步骤,减少设备生成时间和负担,CLIP值越低,生成的图片越符合提示词的描述


1.2.3 文生图

  • 正向提示词框:希望在画面中出现的元素

 可以在小框中输入中文,会直接翻译到正向提示词框中

在这里插入图片描述


提示词一栏可以提供思路以及加载扩展模型

在这里插入图片描述


正向提示词建议书写结构
在这里插入图片描述


提示词的分隔与权重:一般使用英文‘,’进行分隔,权重有两种写法:
写法一:(1 girl:1.5):表示增强提示词的权重到1.5倍
写法二:(((1 gril))):每套一层括号,提示词权重增强1.1倍,表示1.331倍权重


提示词的其他语法:
[girl|cat]:表示猫女,女孩与猫融合
[cat:dog:20]:表示前20步渲染猫,之后开始被替代开始渲染狗
[dog:10]:狗在10步之后开始渲染\


  • 反向提示词框:不希望在画面中出现的元素

  • 生成模块

在这里插入图片描述
从左到右,功能依次为:

按钮功能
第一个读取上次生成的参数
第二个与第一个功能类似
第三个删除所有正反向提示词
第四个将预设里的反向提示词记载到提示词框中,预设需要在下方的画笔处进行设置

  • 采样方法:指从随机噪声生成最终图像时所采用的计算步骤和数学策略,它决定了图像生成的路径、速度和质量;使用其他大模型时根据模型作者推荐进行设置,日常一般使用DPM++2M或者Euler a

  • 调度类型:指控制噪声随时间步长衰减方式的数学策略,它决定了采样过程中每一步噪声的调整节奏和强度;同样需要根据模型作者推荐的进行设置,一般使用Karras;采样器负责执行生成步骤的算法,而调度类型则定义这些步骤中噪声的衰减规则,两者配合完成图像生成

  • 迭代步数:指AI从随机噪声生成最终图像所经历的降噪计算次数,它直接影响图像细节的精细度和生成所需时间;一般选择20-50区间,过少精度不够,过多容易出现伪影

  • 提示词引导数:指控制AI对输入提示词的服从强度的参数,数值越高则生成结果越严格贴合提示词,但可能丧失创意性;数值越低则AI自由度越高,但易偏离主题;一般设置为7

  • 总批次数和单批次量:前者适合电脑性能不高,一批次一张图片,生成多批次;后者适合电脑性能高,只生成一批次,一批次多张图片

  • 随机种子值:指生成图像时使用的初始噪声图的唯一数字标识,它决定了AI绘画的起点噪声状态,直接影响图像的构图、细节和风格;相同的种子值在相同参数下会生成完全一致的图像

在这里插入图片描述


  • ADetailer:是一个后处理插件,用于自动检测并增强图像中的细节,通过局部重绘修复模糊或畸变问题,可以用于人脸的修复

 一般选用mediapipe_face_full,保证随机种子值与想要重绘的图片一致,在重绘模块中调整局部重绘幅度重新生成局部
在这里插入图片描述


  • 高分辨率修复:指通过分阶段生成策略(先快速生成低分辨率图像,再基于其细节智能放大至高清)来平衡效率与画质的核心功能,不能和ADetailer同时使用

放大算法:一般使用R-ESRGAN 4x+和R-ESRGAN 4x+ Anime6B,前者适合发大真实性的图片,后者适合放大动漫类型的图片
高分迭代步数:再次参考关键词进行生成,一般设置为0或10
放大倍数:将图像原来的大小扩大几倍
在这里插入图片描述


1.2.4 图生图

  • 相比于文生图,图生图多出了两个按钮:

在这里插入图片描述
CLIP反推:使用CLIP神经网络创建图像的文本描述,并且将其填入到提示词框中
DeepBooru:使用DeepBooru神经网络创建图像的文字描述,并且将其填入到提示词框中


前者一般用于真实场景,输出语言风格是自然语言描述;后者一般用于动漫场景,输出风格是短标签组合


  • 不过一般对于反推提示词,通常会使用WD1.4标签器,第一次使用可能会下载反推模型,时间会比较长

在这里插入图片描述

 阈值越低,反推的越仔细,获得到的提示词就越多,一般默认即可
在这里插入图片描述


  • 原图像素比较小的时候,可以使用三角形按钮自动检测尺寸

在这里插入图片描述


  • 如果原图像素值过大,可以尝试重绘尺寸倍数,将尺度调小,其中1是原来比例

在这里插入图片描述


  • 重绘幅度越大,图生图后的图像改变就越大,与提示词的关联度就越高

在这里插入图片描述


  • 涂鸦:指用户通过手绘线条或色块覆盖原图局部区域,直接引导AI在指定位置进行定向重绘的交互式创作方式

在这里插入图片描述


  • 局部重绘:手绘蒙版区进行针对局部的重新生成

在这里插入图片描述


  • 涂鸦重绘:指用户通过手动绘制色块或线条覆盖图像局部区域,直接以视觉方式引导AI在该区域进行定向内容生成与替换的过程;例如画一个棕色区域胡,结合指导词“房子”,即可局部重绘出棕色的房子

在这里插入图片描述


  • 上传重绘蒙版:根据已有的蒙版图片,对原图像进行重绘

在这里插入图片描述

 蒙版图片可以从Inpaint Anything模块进行获取

在这里插入图片描述
第一次使用需要先下载模型,模型一般使用默认;上传图像之后点击运行Segment Anything,之后根据需要导出蒙版的部位用画笔进行点画


 最后在仅蒙版模块下点击获取蒙版,并Send to img2img inpaint

在这里插入图片描述


  • PNG图片信息:还原使用SD生成的图片信息,包括正反向提示词、使用的模型以及参数等

在这里插入图片描述


1.2.5 脚本

  • 在下方可以选择脚本xyz图表,可以根据自己的需求进行设定,一般用来对比在不同模型以及不同参数下,步数有什么不同

在这里插入图片描述


  • 除此之外还有提示词矩阵,直接在正向引导词处使用’|’代替’,’即可使用,例如’1cat|playing with oranges|playing with apples’,一般可以用于模特更换不同的衣服

在这里插入图片描述


1.2.6 Lora模型

  • 基本概念:指通过微调少量关键层参数生成的轻量级适配器,用于在基础大模型上叠加特定风格、角色或概念,实现定制化效果而不改变原模型结构;比如将普通人物转成迪士尼画风或固定生成某个原创角色

  • 下载安装:可以在模型网站上筛选出LORA标签,选择需要的进行下载,下载完成后将文件安装在下面的位置:

在这里插入图片描述


  • 使用Lora模型的顺序

 加载基础大模型->加载Lora插件->触发词激活->使用成功
在Lora模块中选择想要加载的插件,加载Lora插件:
在这里插入图片描述

http://www.xdnf.cn/news/17116.html

相关文章:

  • Node.js(四)之数据库与身份认证
  • 更智能的 RibbonBar Spread.NET 18.2Crack
  • [spring-cloud: @LoadBalanced @LoadBalancerClient]-源码分析
  • 【Linux | 网络】网络层(IP协议、NAT技术和ICMP协议)
  • SpringBoot整合t-io是websocket实时通信
  • LeetCode 分类刷题:16. 最接近的三数之和
  • 《汇编语言:基于X86处理器》第11章 复习题和练习
  • uiautomator2 编写测试流程-登陆后的酷狗01
  • 进程生命周期管理:从创建到终止的完整逻辑
  • 探索医学领域多模态人工智能的发展图景:技术挑战与临床应用的范围综述|文献速递-医学影像算法文献分享
  • iOS 内测上架流程详解:跨平台团队如何快速部署 TestFlight
  • 注解知识学习
  • 凹槽类零部件尺寸的检测方法有哪些 - 激光频率梳 3D 轮廓检测
  • [硬件电路-156]:什么是电信号? 电信号的本质:电信号是随时间变化的电压或电流。本质是电子运动表征信息,兼具能量传输与信息编码传递功能。
  • Mac电脑基本功能快捷键
  • EdgeView for macOS:解决图像管理痛点的利器
  • 设计模式 -> 策略模式(Strategy Pattern)
  • 经典设计模式
  • 验证码等待时间技术在酒店自助入住、美容自助与社区场景中的应用必要性研究—仙盟创梦IDE
  • Calcite自定义扩展SQL案例详细流程篇
  • 六、Linux核心服务与包管理
  • 前端 拼多多4399笔试题目
  • [自动化Adapt] 录制引擎 | iframe 穿透 | NTP | AIOSQLite | 数据分片
  • Connection refused: no further information: localhost/127.0.0.1:2375
  • 第四章:OSPF 协议
  • ssh服务器端口和本地端口映射
  • [spring-cloud: 服务发现]-源码解析
  • 旧笔记本电脑如何安装飞牛OS
  • 电商系统定制开发流程:ZKmall开源商城需求分析到上线全程可控
  • MySQL深度理解-MySQL锁机制