当前位置: 首页 > ops >正文

一文理解扩散模型(生成式AI模型)(2)

第二期内容主要是扩散模型的架构,其中包括用于扩散模型的U-Net架构和用于扩散模型的transformer架构。(transformer架构非常重要)

扩散模型需要训练一个神经网络来学习加噪数据的分数函数,或者学习加在数据上的噪声(这对应上文所展示的扩散模型的两种训练范式,详情请见一文理解扩散模型(生成式AI模型)(1)-CSDN博客)。并且因为分数函数是对输入数据的似然函数的导数,所以其维度和输入数据的维度相同;同理,对输入数据的每一个维度都加入独立的标准高斯噪声,所以神经网络预测的噪声的维度与输入数据相同。

用于扩散模型的U-Net

用于扩散模型的U-Net架构通常用于图像生成的任务。(下面都简写为U-Net架构)U-Net架构是一种典型的编码-解码结构,满足输出和输入的分辨率相同的条件,主要由3部分组成:下采样,上采样和跳连(skip connection)。

编码器利用卷积层和池化层进行逐级下采样(下采样的过程中分辨率逐级减少,类似于放大的过程),数据的通道数在卷积的作用下逐渐增大,从而可以学习图片的的高级语义信息。

解码器利用反卷积进行逐级下采样(进行与编码器相反的操作)。在这个过程中输入原始图像中的空间信息与图像中的边缘信息会逐渐恢复。最终,低分辨率的特征图最终会被映射为与原数据维度相同的像素级结果图。

为了弥补编码阶段下采样所丢失的信息,在编码器与解码器之间利用跳连来融合两个过程中对应位置上的特征图,使解码器在进行上采样时能融合不同层次的特征信息,进而恢复和完善原始数据中的细节信息。

以下为U-Net架构图(因为解码部分的操作与编码部分相反,所以省略了解码部分)

其中ResBlock为残差模块,Self-attention为自注意力机制,3*3 Conv为进行3*3的卷积操作,downsample为下采样,upsample为上采样

该结构在第t步去噪过程中,接受去噪对象和时间嵌入t_{emb},输出去噪结果。由于去噪过程是依赖于时间t的,所以残差模块在抽取特征时,也将时间嵌入t_{emb}考虑进来。

Transformer

目前U-Net是扩散模型的主流结构,但Transformer架构也有非常不错的效果。这里仅对Transformer作一些总体介绍,更多细节留在新的栏目中来展现。

Transformer主要由自注意力机制和前馈神经网络组成。在自注意力机制中,输入序列中的每个元素都会与其他元素进行相互作用,从而形成一个新的特征向量。这种机制允许模型对输入序列进行非常灵活的处理,能够捕捉输入序列中的长依赖关系,且因为它的并行性使得速度大大提升。前馈神经网络也有非常大的作用,该模块由几层全连接层组成,使用激活函数ReLU对中间层进行激活,并且增加了非线性关系,从而能更好地进行数据建模。

更多关于Transformer的总体概述和自注意力机制运作模式和细节将在新的栏目中更新,敬请期待!

http://www.xdnf.cn/news/6111.html

相关文章:

  • 使用 Docker Desktop 安装 Neo4j 知识图谱
  • VastBase的日常操作记录
  • Qt功能区:简介与安装
  • JS中本地存储(LocalStorage)和会话存储(sessionStorage)的使用和区别
  • vscode - 笔记
  • Deep Learning(手写字识别 - CNN)
  • Python算法思想
  • 企业级IP代理解决方案:负载均衡与API接口集成实践
  • 【导航信号模拟器】【MATLAB APP】MATLAB AppDesigner基本使用教程
  • DA14531如何在固件中生成与时间相关的mac和版本号
  • react+html-docx-js将页面导出为docx
  • 没经过我同意,flink window就把数据存到state里的了?
  • Java 大视界——Java 大数据在智慧交通智能停车诱导系统中的数据融合与实时更新
  • 命令行快速上传文件到SFTP服务器(附参考示例)
  • 灰度图像和RGB图像在数据大小和编码处理方式差别
  • lanqiaoOJ 652:一步之遥 ← 扩展欧几里得定理
  • ESP32-S3R8 使能PSRAM内存
  • 【嵌入式笔记】Modbus TCP
  • 鬼泣:蓄力攻击总结
  • 《AI大模型应知应会100篇》第63篇:AutoGPT 与 BabyAGI:自主代理框架探索
  • 计算机网络:怎么理解调制解调器的数字调制技术?
  • 《AI驱动的智能推荐系统:原理、应用与未来》
  • Java面试八股Spring篇(4500字)
  • 某某霸翻译逆向分析[JS逆向]
  • 计算机系统概述——了解冯诺伊曼 CPI相关公式
  • 基于Qt的OSG三维建模
  • 【Redis实战篇】秒杀优化
  • 使用 hover-class 实现触摸态效果 - uni-app 教程
  • 数字信号处理-大实验1.2
  • 一文掌握六个空转数据库