当前位置: 首页 > news >正文

学习记录aigc

1、DIT

https://zhuanlan.zhihu.com/p/683612528

DiT最大的创新点是将Transformer引入到了扩散模型中,并完全抛弃了CNN。但是DiT并不是第一个引入Transformer的,例如之前的U-ViT,UniDiffuser等都尝试了将Transformer引入到扩散模型中。至于对效果提升同样非常有帮助的adaLN,zero-初始化,classifier-free guidance等则是已有的工作了。DiT引入条件信息还是仅仅局限在样本类别,接下来我们有必要学习一些引入文本序列作为条件的生成模型了。

1、Diffusion Model (扩散模型)系列四:DALLE 2

https://zhuanlan.zhihu.com/p/585300710

2、Diffusion Model(扩散模型) 系列5 :Stable-Diffusion

https://zhuanlan.zhihu.com/p/591432516

3、Diffusion Model(扩散模型) 系列6 :大杀器 ControlNet 详解

https://zhuanlan.zhihu.com/p/609075353

4、Diffusion Model(扩散模型) 系列7,另一种可控的生成方案: Composer: Creative and Controllable Image Synthesis

(2023|ICML,解耦表示,多条件生成,扩散)Composer:使用合成条件进行创意和可控图像合成_composer: creative and controllable image synthesi-CSDN博客

https://zhuanlan.zhihu.com/p/611787356

5、T2I-Adapter 解读: 控制diffusion model 方法

T2I-Adapter:学习适配器为文本到图像扩散模型挖掘更多可控能力_t2i adapter-CSDN博客

6、AIGC系列1:chatGPT和AI绘画-stable diffusion中很火的LoRa是?(更新中)

https://zhuanlan.zhihu.com/p/613410830

7、Diffusion Model (扩散模型) 系列9: MultiDiffusion:解决内存不足&高分辨率生成问题

https://zhuanlan.zhihu.com/p/618455424

https://zhuanlan.zhihu.com/p/623875680

8、AIGC系列2: Segment Anything Model (分割一切模型)

https://zhuanlan.zhihu.com/p/620852588


1、Stable-Diffusion相关源码分析及实践篇1:Control-Net

https://zhuanlan.zhihu.com/p/622542233

2、大模型中的位置编码ALiBi,RoPE的总结和实现

大模型中的位置编码ALiBi,RoPE的总结和实现_alibi位置编码-CSDN博客

3、Diffusion Model(扩散模型) 系列6-1 :大杀器 ControlNet V1.1 更新来啦

https://zhuanlan.zhihu.com/p/624602487

4、【玩转 GPU】ControlNet 初学者生存指南原创

【玩转 GPU】ControlNet 初学者生存指南-腾讯云开发者社区-腾讯云

5、【AIGC-AI视频生成系列-文章1】Text2Video-Zero

[2303.13439] Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

https://zhuanlan.zhihu.com/p/626777733

【论文阅读】Text2Video-Zero:Text-to-Image Diffusion Models are Zero-Shot Video Generators-CSDN博客

一句话亮点:当文本-视频生成也不需要额外数据训练,只需要基于现有的diffusion-model 如Stable Diffusion能力调整即可实现,解决生成视频帧间不一致问题,是不是很心动。

基于现有的文本-视频生成扩散模型的重数据,高需求,进行了以下改进:

  • zero-shot,仅仅使用现有的扩散模型如Stable-Diffusion。实现了相似甚至有时更好的性能

  • 用motion dynamics运动信息丰富生成帧的latent code,以保持全局场景和背景的一致性。用跨帧注意力机制来保留整个序列中前景对象的上下文、外观和身份,以保持生成场景和背景的一致性。

6、【Diffusion Model (扩散模型)系列10】LyCORIS :围绕LoRa的细粒度优化实现库

https://zhuanlan.zhihu.com/p/633044024

7、LoRA 改进:


1、【Diffusion Model (扩散模型)系列11】StyleDrop:单张图片的高质量风格化

2、【Diffusion Model (扩散模型)系列11】StyleDrop:单张图片的高质量风格化

3、【Diffusion Model (扩散模型)系列12】SnapFusion:扩散模型压缩,实现端上秒级应用

一句话总结:使用Snap之后,可以保证SD-1.5模型在端上秒级实现。

4、【Diffusion Model (扩散模型)总结篇-1】:一文梳理三种Stable Diffusion模型微调方法的异同

https://zhuanlan.zhihu.com/p/653818267

5、【Diffusion Model (扩散模型)系列13】IP-Adapter:将图像作为prompt引导生成模型

https://zhuanlan.zhihu.com/p/658320293

【一句话总结】

腾讯-AILab 又来整顿可控生成模块了,通过提取图像特征并作用于U-Net中,实现只需要一张图像就可以实现“垫图”功能,效果比目前常见相似生成的Control-Net shuffle/ Reference-Only 效果要更好。(并支持SDXL的相似生成)。

http://www.xdnf.cn/news/909829.html

相关文章:

  • 智能制造数字孪生全要素交付一张网:智造中枢,孪生领航,共建智造生态共同体
  • Verilog编程技巧01——如何编写三段式状态机
  • 数论——同余问题全家桶3 __int128和同余方程组
  • Linux非管理员用户安装python环境
  • Ubuntu创建修改 Swap 文件分区的步骤——解决嵌入式开发板编译ROS2程序卡死问题
  • 2025.6.5学习日记 Nginx主目录文件 .conf介绍、热部署 定时日志切割
  • Abaqus有限元应力集中
  • Odoo 19 路线图(新功能)
  • C++课设:考勤记录系统
  • 三、元器件的选型
  • 常用枚举技巧:基础(一)
  • QGraphicsView、QGraphicsScene和QGraphicsItem图形视图框架(八)QGraphicsProxyWidget的使用
  • CPP基础
  • Go 并发编程基础:通道(Channel)的使用
  • C语言的全称:(25/6/6)
  • Python应用break初解
  • $attrs 与 $listeners 透传
  • 实战:用 i.MX8MP 读取 220V 电流信息的完整方案(HLW8032 接入)
  • 华科:视觉大模型动态剪枝框架FlowCut
  • onSaveInstanceState() 和 ViewModel 在数据保存能力差异
  • nginx的安装
  • 《100天精通Python——基础篇 2025 第5天:巩固核心知识,选择题实战演练基础语法》
  • 软件测评服务如何依据标准确保品质?涵盖哪些常见内容?
  • SQLAlchemy 中的 func 函数使用指南
  • [密码学实战]C语言使用SDF库构建国密算法RESTful服务(五)
  • janus客户端源码分析
  • 【计算机网络】非阻塞IO——poll实现多路转接
  • AIGC 基础篇 Python基础 01
  • 使用阿里云百炼embeddings+langchain+Milvus实现简单RAG
  • PCB设计教程【大师篇】——STM32开发板电源设计(LDO、DCDC)