当前位置：首页 > backend >正文

Transformer LLM

backend 2025/7/4 10:27:33

NLP任务可以分类成：

（1）判别式任务：给定一个句子，希望得到某种分类结果，例如情感分析、文本分类、文本蕴含等；

（2）生成式任务：给定一个句子，想要生成下一个词元，语言建模，例如机器翻译。

方法：

（1）RNN循环神经网络

（2）CNN卷积神经网络

（3）LSTM

1. Tokenize words

A tokenizer maps a word to one/multiple tokens.

2. embeddings

词表中有很多单词，每个单词使用一个数组表示，将单词编码成数字。

3. Multi-Head Attention (MHA)

（1）Self-Attention

Attention(Q,K,V) = softmax(Q * K^T / sqrt(d_k)) V;

（2）Multi-Head Attention

想要建模的是多种多样的关系，由于存在多种关系，需要引入多头注意力机制，让每个头捕捉不同的语义信息。

（3）Attention Masking

注意力掩码，有两种，一种是因果掩码，另一种是全局掩码

全局注意力：每个词元都能看到其他所有词元，甚至包括未来的词元

因果掩码：每个词元只能看到它之前的所有内容，但看不到之后的任何信息

4. Feed-Forward Network（FFN）

由于自注意力机制专注于建模词元之间的关系，因此它并不包含逐元素的非线性变换。

不仅要建模词元之间的关系，还要赋予模型一定的能力，使其能够独立地处理每个词元，因此我们加入了前馈网络，即全连接层，以增强对局部特征的建模能力。

5. Layer Norm（LN）

http://www.xdnf.cn/news/5522.html

相关文章：

Linux数据库篇、第零章_MySQL30周年庆典活动

关于chatshare.xyz激活码使用说明和渠道指南!

3D虚拟工厂vue3+three.js

Babel 深度解析：现代 JavaScript 开发的桥梁

@RequestParam @RequestHeader @RequestBody 三者详解

【英语笔记（四）】诠释所有16种英语时态，介绍每种时态下的动词变形！！含有所有时态的的动词变形汇总表格

C语言学习记录——深入理解指针（4）

单片机-STM32部分：13、PWM

wget、curl 命令使用场景与命令实践

数据并行基础概念知识

openai接口参数max_tokens改名max-completion-tokens？

17前端项目----支付弹框

10.二叉搜索树中第k小的元素（medium）

用pymysql操作数据库

POST请求、响应、requests库高级用法

甜蜜聊天话术库

Go语言标识符

嵌入式STM32学习——433M无线遥控灯

AI-Talk开发板之驱动1.28寸圆屏

深入理解 Polly：.NET Core 中的健壮错误处理策略

HTTP/1.1 host虚拟主机详解

USB学习【6】USB传输错误的处理

Typescript 源码核心流程

【C语言练习】035. 编写结构体的函数

MySQL视图深度解析：从基础语法到高级应用

Mask-aware Pixel-Shuffle Down-Sampling (MPD) 下采样

vector 常见用法及模拟

算法题（144）：跳石头

游戏逆向开发全阶段电子资料分享 – 从入门到精通实战教程