揭秘LLM:矩阵运算揭秘LLM单词生成机制
揭秘LLM:矩阵运算揭秘LLM单词生成机制
目录
- 揭秘LLM:矩阵运算揭秘LLM单词生成机制
- **1. 输入处理:词嵌入(Token Embedding)**
- **矩阵表示**
- **矩阵运算**
- **2. Transformer层计算**
- **多头注意力机制(Multi-Head Attention)**
- **前馈神经网络(Feed Forward Network)**
- **3. 输出层:从隐藏状态到词概率**
- **线性投影**
- **概率计算**
- **完整流程示例**
- **1. 输入嵌入**
- **2. Transformer层计算**
- **3. 输出层**
- **关键矩阵维度总结**
- **生成单词的最终步骤**
- **总结**
- 举例说明 logits 到softmax 计算
- 1. 公式展开
- 2. 计算分子
- 3. 计算分母
- 4. 计算每个位置的概率
- Logits、exp与Softmax的核心概念
- 1. **Logits的含义**
- 2. **exp函数的作用**
- 3. **Softmax函数详解**
- 数值计算示例
- 步骤1:计算每个Logits的指数值
- 步骤2:计算指数值的总和
- 步骤3:计算Softmax概率
- 结果验证
- 为什么使用Softmax?
- 在LLM中的应用
- Softmax是不是即实现归一化 又激活了
LLM(大型语言模型)生成单词的过程本质上是一系列矩阵运算的结果。从数学角度看,这个过程涉及词嵌入、Transformer层计算和输出层映射三个核心步骤。下面我将从矩阵运算的视角详细解释这个过程。
1. 输入处理:词嵌入(Token Embedding)
矩阵表示
-
输入Token序列:假设输入是一个包含 N N