当前位置: 首页 > ds >正文

认识Transformer架构

一.前言

前面我们介绍了RNN相关系列的模型,在当今大模型时代大家认识一下就好了,而本章节我们是要来介绍一下重中之重的Transformer模型,本章节就来介绍一下他的架构,了解Transformer模型的作⽤以及了解Transformer总体架构图中各个组成部分的名称。

二.Transformer模型的作用

基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务, 如机器翻译, ⽂本⽣成等. 同时⼜可以构建预训练语⾔模型,⽤于不同任务的迁移学习.

在接下来的架构分析中, 我们将假设使⽤Transformer模型架构处理从⼀种语⾔⽂本到另⼀种语⾔⽂本 的翻译⼯作, 因此很多命名⽅式遵循NLP中的规则. ⽐如: Embeddding层将称作⽂本嵌⼊层, Embedding层产⽣的张量称为词嵌⼊张量, 它的最后⼀维将称作词向量等

三.Transformer总体架构图

3.1 Transformer总体架构 

输⼊部分

输出部分

编码器部分

解码器部分 

3.2 输⼊部分包含 

源⽂本嵌⼊层及其位置编码器

⽬标⽂本嵌⼊层及其位置编码器 

 

3.3 输出部分包含 

线性层

softmax层 

 

3.4 编码器部分 

由N个编码器层堆叠⽽成

每个编码器层由两个⼦层连接结构组成

第⼀个⼦层连接结构包括⼀个多头⾃注意⼒⼦层和规范化层以及⼀个残差连接

第⼆个⼦层连接结构包括⼀个前馈全连接⼦层和规范化层以及⼀个残差连接 

 

3.5 解码器部分 

由N个解码器层堆叠⽽成

每个解码器层由三个⼦层连接结构组成

第⼀个⼦层连接结构包括⼀个多头⾃注意⼒⼦层和规范化层以及⼀个残差连接

第⼆个⼦层连接结构包括⼀个多头注意⼒⼦层和规范化层以及⼀个残差连接

第三个⼦层连接结构包括⼀个前馈全连接⼦层和规范化层以及⼀个残差连接 

 

四.总结 

本章节主要是介绍了一下Transformer的架构,后续还会继续更新相关知识,期待大家的点赞关注加收藏

 

http://www.xdnf.cn/news/16230.html

相关文章:

  • 第十讲:stack、queue、priority_queue以及deque
  • 【力扣】第15题:三数之和
  • C# 继承 虚方法
  • idea部署新项目时,用自定义的maven出现的问题解决
  • QMC5883L 坐标系Z轴是垂直于芯片平面向下(芯片朝上时指向地面)还是垂直于芯片平面向上(芯片朝上时指向天空)
  • Qt内存管理的核心点
  • 游戏盾 在线游戏的终极防护屏障
  • 【2025目标检测】最新论文
  • 2025年Zigbee技术白皮书:全球物联网无线通信的关键创新
  • 深度学习的Logits:logist 是什么,上一维度的隐藏向量怎么获取
  • 基于GitHub的Terraform自动化管理最佳实践
  • rust嵌入式开发零基础入门教程(四)
  • 第一章:Go语言基础入门之Hello World与Go程序结构
  • 【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 主页-微博点赞量Top6实现
  • Https以及CA证书
  • 基于php的校园招聘平台
  • SpringCloud seata全局事务
  • Matlab学习笔记:逻辑基础
  • 【数学建模 | Matlab】二维绘图 和 三维绘图
  • CLI 与 IDE 编码代理比较:提升开发效率的两种路径
  • 使用Docker搭建SearXNG搜索引擎
  • 直播一体机技术方案解析:基于RK3588S的硬件架构特性​
  • 地理类专业选择指南:地理科学/测绘工程/遥感科学与技术
  • 基于LNMP分布式个人云存储
  • Docker详解及实战
  • 274款古装人物头像
  • 20250704-基于强化学习在云计算环境中的虚拟机资源调度研究
  • DeepSeek 助力 Vue3 开发:打造丝滑的日历(Calendar),日历_家庭维护示例(CalendarView01_31)
  • 性能测试-jmeter实战5
  • 【无标题】word 中的中文排序