当前位置: 首页 > news >正文

Transformer(李宏毅)

目录

sequence to sequence `s model

Transformer`s  Encoder :

Transformer`s   Decoder:

non-autoregressive(NAT):

How Encoder TO Decoder?

Training:


sequence to sequence `s model

比如:语音辨识,输出长度由机器自己决定。

机器翻译:

        NLP问题可以看成QA问题,QA问题可以用sequence to sequence的模型来解决。但是特质化模型可以得到更好的结果

Transformer`s  Encoder :

        Encoder里面优惠很多Block,里面有很多Layer。

Transformer`s   Decoder:

        Decoder这里不能单纯的用Self-attention,要用Masked Self-attention,因为语音识别输出的结果是一个一个输出的,而Self-attention是一下子全部同时输出的,输出每个bi都考虑了全部的ai,使用Masked Self-attention,由于语音输入的时候时现有a1再有a2、a3... ...所以他输出 b1时只考虑a1,输出b2时考虑a1a2,输出b3时考虑a1a2a3... ...

        Decoder还要自己识别输出的长度,要让他会输出一个特别的符号“断”,设置为END。输入机器学习语音,输出“BEGIN 机 器 学 习 END”。

non-autoregressive(NAT):

        AT一个BEGIN,多次输入。NAT多个BEGIN,一次输入。

NAT怎么判断句子长度?

        预测器、设置MAX长度

        

NAT好处

        parallel, more stable generation

NAT is usually worse than AT (why? Multi-modality)

How Encoder TO Decoder?

kv(蓝色)来自Encoder

q(绿色)来自于Decoder。

Training:

有时候不需要生成什么,只需要复制什么东西,比如说人名。

比如说摘要,但是需要百万篇文章。基本上都是从原文里面复制一些东西。

Guided Attention:要求机器做attention的时候有固定的方式。比如说由左向右。

BeamSearch:假设世界上只有两个输出A和B,决定A还是B再放到input里面再进行输出

http://www.xdnf.cn/news/38305.html

相关文章:

  • C语言数据结构顺序表
  • 面试题--随机(一)
  • 每日算法-250419
  • 实验扩充 LED显示4*4键位值
  • 航电春季赛(七)1010 网格计数
  • python(八)-数据类型转换
  • 【C++算法】66.栈_比较含退格的字符串
  • linux软件仓库
  • 【AIVS】OPENAIVS开源视频推理系统简介
  • 【内置函数】84个Python内置函数全整理
  • 嘉立创原理图、PCB常见问题
  • 8.5/Q1,Charls最新文章解读
  • JavaScript 变量命名规范
  • LeetCode 2563.统计公平数对的数目:排序 + 二分查找
  • 行为审计软件:企业合规与内部监控的数字守门人
  • 硬件工程师面试常见问题(3)
  • Linux下使用C++获取硬件信息
  • Spring Cloud CircuitBreaker服务熔断+隔离+限流
  • 【解决】torch引入过程中的ImportError: __nvJitLinkAddData_12_1, version libnvJitLink.so.12
  • 编程技能:调试04,逐语句命令
  • 08-DevOps-向Harbor上传自定义镜像
  • 【数字IC进阶】整数除3和模3的高效实现
  • 网络开发基础(游戏方向)之 概念名词
  • ESP32-S3上跑通红外重复码发送(7)
  • Linux cmp 命令使用详解
  • SQL注入绕过一些过滤的方式
  • 【数据结构】_栈和队列相关面试题
  • Photoshop安装与配置--简单攻略版
  • 数字化转型四步走:企业的进化密码
  • 新手记录--从零开始[labelme安装及使用]