当前位置: 首页 > news >正文

大模型微调 - transformer架构

什么是Transformer

Transformer 架构是由 Vaswani 等人在 2017 年提出的一种深度学习模型架构,首次发表于论文《Attention is All You Need》中

Transformer 的结构

在这里插入图片描述

Transformer = 编码器(Encoder) + 解码器(Decoder)

  • 编码器(Encoder):将输入序列编码成上下文相关的表示。

  • 解码器(Decoder):根据编码器输出和已有的目标序列预测下一个词。

标准的 Transformer 模型通常包含:

  • 6 个编码器层(Encoder Layers)

  • 6 个解码器层(Decoder Layers)

编码器结构(每层)

每个编码器层包含两个子层(Sublayers):

  • 多头自注意力机制(Multi-Head Self-Attention)
  • 前馈全连接网络(Feed-Forward Neural Network)提供非线性能力

每个子层外面都有:

  • 残差连接(Residual Connection),避免梯度消失
  • 层归一化(Layer Normalization),保持每一层输入和输出的数值稳定、分布一致

解码器结构(每层)

每个解码器层包含三个子层:

  • Masked 多头自注意力机制
  • Encoder-Decoder 注意力机制
  • 前馈神经网络
    也有残差连接和层归一化。
http://www.xdnf.cn/news/137305.html

相关文章:

  • flume整合Kafka和spark-streaming核心编程
  • 什么是可重入锁ReentrantLock?
  • 使用el-table表格动态渲染表头数据之后,导致设置fixed的列渲染出现问题
  • 如何在IDEA中高效使用Test注解进行单元测试?
  • Linux 怎么找Java程序的监听的端口
  • 企业级AI开发利器:Spring AI框架深度解析与实战
  • 解释器体系结构风格-笔记
  • Vuex 和 Pinia 的区别
  • 第2讲:R语言中的色彩美学——科研图表配色指南
  • 用C语言实现——一个中缀表达式的计算器。支持用户输入和动画演示过程。
  • C语言指针5
  • Swift中Class和Struct的深度对比分析
  • VS Code搭建C/C++开发环境
  • CAD版本之——DwgVersion 与 AutoCAD 版本的对应关系
  • UOJ 228 基础数据结构练习题 Solution
  • 【Java学习笔记】冒泡排序
  • 【网工第6版】第5章 网络互联⑪
  • Python 3.14:探索新版本的魅力与革新
  • 同样机身尺寸下伺服电机比无刷电机扭矩更大的原因
  • Mybatis-Plus,IDEA2024版本
  • top 命令里面可以看到进程哪些状态?
  • 浏览器常用快捷键
  • MDF标准
  • 高效使用DeepSeek对“情境+ 对象 +问题“型课题进行开题!
  • 关于开源大模型(如 LLaMA、InternLM、Baichuan、DeepSeek、Qwen 等)二次开发或训练经验的关键点和概述
  • Java基础第四章、面向对象
  • 从零开始用Turtle绘制分形树,数学与编程的完美结合!
  • 声音分离人声和配乐base,vocals,drums -从头设计数字生命第6课, demucs——仙盟创梦IDE
  • element-ui tabs 组件源码分享
  • 前端技术Ajax原理