学习记录aigc
1、DIT
https://zhuanlan.zhihu.com/p/683612528
DiT最大的创新点是将Transformer引入到了扩散模型中,并完全抛弃了CNN。但是DiT并不是第一个引入Transformer的,例如之前的U-ViT,UniDiffuser等都尝试了将Transformer引入到扩散模型中。至于对效果提升同样非常有帮助的adaLN,zero-初始化,classifier-free guidance等则是已有的工作了。DiT引入条件信息还是仅仅局限在样本类别,接下来我们有必要学习一些引入文本序列作为条件的生成模型了。
1、Diffusion Model (扩散模型)系列四:DALLE 2
https://zhuanlan.zhihu.com/p/585300710
2、Diffusion Model(扩散模型) 系列5 :Stable-Diffusion
https://zhuanlan.zhihu.com/p/591432516
3、Diffusion Model(扩散模型) 系列6 :大杀器 ControlNet 详解
https://zhuanlan.zhihu.com/p/609075353
4、Diffusion Model(扩散模型) 系列7,另一种可控的生成方案: Composer: Creative and Controllable Image Synthesis
(2023|ICML,解耦表示,多条件生成,扩散)Composer:使用合成条件进行创意和可控图像合成_composer: creative and controllable image synthesi-CSDN博客
https://zhuanlan.zhihu.com/p/611787356
5、T2I-Adapter 解读: 控制diffusion model 方法
T2I-Adapter:学习适配器为文本到图像扩散模型挖掘更多可控能力_t2i adapter-CSDN博客
6、AIGC系列1:chatGPT和AI绘画-stable diffusion中很火的LoRa是?(更新中)
https://zhuanlan.zhihu.com/p/613410830
7、Diffusion Model (扩散模型) 系列9: MultiDiffusion:解决内存不足&高分辨率生成问题
https://zhuanlan.zhihu.com/p/618455424
https://zhuanlan.zhihu.com/p/623875680
8、AIGC系列2: Segment Anything Model (分割一切模型)
https://zhuanlan.zhihu.com/p/620852588
1、Stable-Diffusion相关源码分析及实践篇1:Control-Net
https://zhuanlan.zhihu.com/p/622542233
2、大模型中的位置编码ALiBi,RoPE的总结和实现
大模型中的位置编码ALiBi,RoPE的总结和实现_alibi位置编码-CSDN博客
3、Diffusion Model(扩散模型) 系列6-1 :大杀器 ControlNet V1.1 更新来啦
https://zhuanlan.zhihu.com/p/624602487
4、【玩转 GPU】ControlNet 初学者生存指南原创
【玩转 GPU】ControlNet 初学者生存指南-腾讯云开发者社区-腾讯云
5、【AIGC-AI视频生成系列-文章1】Text2Video-Zero
[2303.13439] Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators
https://zhuanlan.zhihu.com/p/626777733
【论文阅读】Text2Video-Zero:Text-to-Image Diffusion Models are Zero-Shot Video Generators-CSDN博客
一句话亮点:当文本-视频生成也不需要额外数据训练,只需要基于现有的diffusion-model 如Stable Diffusion能力调整即可实现,解决生成视频帧间不一致问题,是不是很心动。
基于现有的文本-视频生成扩散模型的重数据,高需求,进行了以下改进:
-
zero-shot,仅仅使用现有的扩散模型如Stable-Diffusion。实现了相似甚至有时更好的性能
-
用motion dynamics运动信息丰富生成帧的latent code,以保持全局场景和背景的一致性。用跨帧注意力机制来保留整个序列中前景对象的上下文、外观和身份,以保持生成场景和背景的一致性。
6、【Diffusion Model (扩散模型)系列10】LyCORIS :围绕LoRa的细粒度优化实现库
https://zhuanlan.zhihu.com/p/633044024
7、LoRA 改进:
1、【Diffusion Model (扩散模型)系列11】StyleDrop:单张图片的高质量风格化
2、【Diffusion Model (扩散模型)系列11】StyleDrop:单张图片的高质量风格化
3、【Diffusion Model (扩散模型)系列12】SnapFusion:扩散模型压缩,实现端上秒级应用
一句话总结:使用Snap之后,可以保证SD-1.5模型在端上秒级实现。
4、【Diffusion Model (扩散模型)总结篇-1】:一文梳理三种Stable Diffusion模型微调方法的异同
https://zhuanlan.zhihu.com/p/653818267
5、【Diffusion Model (扩散模型)系列13】IP-Adapter:将图像作为prompt引导生成模型
https://zhuanlan.zhihu.com/p/658320293
【一句话总结】
腾讯-AILab 又来整顿可控生成模块了,通过提取图像特征并作用于U-Net中,实现只需要一张图像就可以实现“垫图”功能,效果比目前常见相似生成的Control-Net shuffle/ Reference-Only 效果要更好。(并支持SDXL的相似生成)。