当前位置：首页 > news >正文

Transformer（李宏毅）

news 2025/9/4 22:55:35

目录

sequence to sequence `s model

Transformer`s Encoder ：

Transformer`s Decoder：

non-autoregressive（NAT）：

How Encoder TO Decoder？

Training：

sequence to sequence `s model

比如：语音辨识，输出长度由机器自己决定。

机器翻译：

NLP问题可以看成QA问题，QA问题可以用sequence to sequence的模型来解决。但是特质化模型可以得到更好的结果

。

Transformer`s Encoder ：

Encoder里面优惠很多Block，里面有很多Layer。

Transformer`s Decoder：

Decoder这里不能单纯的用Self-attention，要用Masked Self-attention，因为语音识别输出的结果是一个一个输出的，而Self-attention是一下子全部同时输出的，输出每个bi都考虑了全部的ai，使用Masked Self-attention，由于语音输入的时候时现有a1再有a2、a3... ...所以他输出 b1时只考虑a1，输出b2时考虑a1a2，输出b3时考虑a1a2a3... ...

Decoder还要自己识别输出的长度，要让他会输出一个特别的符号“断”，设置为END。输入机器学习语音，输出“BEGIN 机器学习 END”。

non-autoregressive（NAT）：

AT一个BEGIN，多次输入。NAT多个BEGIN，一次输入。

NAT怎么判断句子长度？

预测器、设置MAX长度

NAT好处

parallel, more stable generation

NAT is usually worse than AT (why? Multi-modality)

How Encoder TO Decoder？

kv（蓝色）来自Encoder

q（绿色）来自于Decoder。

Training：

有时候不需要生成什么，只需要复制什么东西，比如说人名。

比如说摘要，但是需要百万篇文章。基本上都是从原文里面复制一些东西。

Guided Attention：要求机器做attention的时候有固定的方式。比如说由左向右。

BeamSearch：假设世界上只有两个输出A和B，决定A还是B再放到input里面再进行输出

http://www.xdnf.cn/news/38305.html

相关文章：

C语言数据结构顺序表

面试题--随机（一）

每日算法-250419

实验扩充 LED显示4*4键位值

航电春季赛（七）1010 网格计数

python（八）-数据类型转换

【C++算法】66.栈_比较含退格的字符串

linux软件仓库

【AIVS】OPENAIVS开源视频推理系统简介

【内置函数】84个Python内置函数全整理

嘉立创原理图、PCB常见问题

8.5/Q1，Charls最新文章解读

JavaScript 变量命名规范

LeetCode 2563.统计公平数对的数目：排序 + 二分查找

行为审计软件：企业合规与内部监控的数字守门人

硬件工程师面试常见问题（3）

Linux下使用C++获取硬件信息

Spring Cloud CircuitBreaker服务熔断+隔离+限流

【解决】torch引入过程中的ImportError: __nvJitLinkAddData_12_1, version libnvJitLink.so.12

编程技能：调试04，逐语句命令

08-DevOps-向Harbor上传自定义镜像

【数字IC进阶】整数除3和模3的高效实现

网络开发基础（游戏方向）之概念名词

ESP32-S3上跑通红外重复码发送（7）

Linux cmp 命令使用详解

SQL注入绕过一些过滤的方式

【数据结构】_栈和队列相关面试题

Photoshop安装与配置--简单攻略版

数字化转型四步走：企业的进化密码

新手记录--从零开始[labelme安装及使用]