当前位置: 首页 > backend >正文

Transformer LLM

NLP任务可以分类成:

(1)判别式任务:给定一个句子,希望得到某种分类结果,例如情感分析、文本分类、文本蕴含等;

(2)生成式任务:给定一个句子,想要生成下一个词元,语言建模,例如机器翻译。

方法:

(1)RNN循环神经网络

(2)CNN卷积神经网络

(3)LSTM

1. Tokenize words

A tokenizer maps a word to one/multiple tokens.

2. embeddings

词表中有很多单词,每个单词使用一个数组表示,将单词编码成数字。

3. Multi-Head Attention (MHA)

(1)Self-Attention

Attention(Q,K,V) = softmax(Q * K^T / sqrt(d_k)) V;

(2)Multi-Head Attention

想要建模的是多种多样的关系,由于存在多种关系,需要引入多头注意力机制,让每个头捕捉不同的语义信息。

(3)Attention Masking

 注意力掩码,有两种,一种是因果掩码,另一种是全局掩码

全局注意力:每个词元都能看到其他所有词元,甚至包括未来的词元

因果掩码:每个词元只能看到它之前的所有内容,但看不到之后的任何信息

4. Feed-Forward Network(FFN)

由于自注意力机制专注于建模词元之间的关系,因此它并不包含逐元素的非线性变换。

不仅要建模词元之间的关系,还要赋予模型一定的能力,使其能够独立地处理每个词元,因此我们加入了前馈网络,即全连接层,以增强对局部特征的建模能力。

 5. Layer Norm(LN)

http://www.xdnf.cn/news/5522.html

相关文章:

  • Linux数据库篇、第零章_MySQL30周年庆典活动
  • 关于chatshare.xyz激活码使用说明和渠道指南!
  • 3D虚拟工厂vue3+three.js
  • Babel 深度解析:现代 JavaScript 开发的桥梁
  • @RequestParam @RequestHeader @RequestBody 三者详解
  • 【英语笔记(四)】诠释所有16种英语时态,介绍每种时态下的动词变形!!含有所有时态的的动词变形汇总表格
  • C语言学习记录——深入理解指针(4)
  • 单片机-STM32部分:13、PWM
  • MongoDB
  • wget、curl 命令使用场景与命令实践
  • 数据并行基础概念知识
  • openai接口参数max_tokens改名max-completion-tokens?
  • 17前端项目----支付弹框
  • 10.二叉搜索树中第k小的元素(medium)
  • 用pymysql操作数据库
  • POST请求 、响应、requests库高级用法
  • 甜蜜聊天话术库
  • Go语言标识符
  • 嵌入式STM32学习——433M无线遥控灯
  • AI-Talk开发板之驱动1.28寸圆屏
  • 深入理解 Polly:.NET Core 中的健壮错误处理策略
  • HTTP/1.1 host虚拟主机详解
  • USB学习【6】USB传输错误的处理
  • Typescript 源码核心流程
  • 【C语言练习】035. 编写结构体的函数
  • MySQL视图深度解析:从基础语法到高级应用
  • Mask-aware Pixel-Shuffle Down-Sampling (MPD) 下采样
  • vector 常见用法及模拟
  • 算法题(144):跳石头
  • 游戏逆向开发全阶段电子资料分享 – 从入门到精通实战教程