为什么rnn不能深层,残差链接能解决吗,为什么transform能深层
RNN难以实现深层结构、Transformer能支持深层堆叠,核心差异源于两者的网络结构特性和梯度传播机制。
残差链接(Residual Connection)对RNN的深层问题缓解有限,但对Transformer的深层能力至关重要。
一、为什么RNN不能深层?
RNN(包括LSTM、GRU等变体)的核心是循环结构:每个时间步的输出依赖于上一个时间步的隐藏状态(如 ht=f(xt,ht−1)h_t = f(x_t, h_{t-1})h