LLM中典型的Transformer层中:MLP Residual; LN Agg: μ, σ; SM Agg 是什么意思
LLM中典型的Transformer层中:MLP Residual; LN Agg: μ, σ; SM Agg 是什么意思
1. MLP Result
- 含义:多层感知机(MLP)的输出结果。
- 解释:在Transformer架构中,每个“前馈神经网络层(MLP)”会对输入数据进行非线性变换(通常是两层线性变换+激活函数,如ReLU),
MLP Result
就是该层的最终输出。
2. MLP Residual
- 含义:MLP层的残差(Residual)。
- 解释:这是残差连接(Residual Connection)的核心部分。假设MLP层的输入是
x
,层的计算结果是F(x)
,那么MLP Residual
就是F(x)
(即“层输出相对于输入的增量信息”)。