反向传播的核心是什么:计算损失函数对可训练参数的梯度=== 损失函数能通过计算图连接到可训练参数
反向传播的核心是什么:计算损失函数对可训练参数的梯度
损失函数能通过计算图连接到可训练参数
在深度学习中,反向传播的核心是计算损失函数对可训练参数的梯度,从而更新这些参数。对于LLM(大型语言模型)而言,是否需要“LLM输出的参数”才能进行反向传播
一、反向传播的基本原理
反向传播的前提是:
- 存在可训练的参数(如权重矩阵、偏置项、嵌入向量等)。
- 损失函数与这些参数之间存在可导的计算图。
无论模型输出是什么,只要损失函数能通过计算图连接到可训练参数,即可进行反向传播。
关键点:反向传播的目标是更新参数,而不是“依赖模型输出的参数”。模型输出(如生成的文本、分类概率)是计算损失的依据,但不是反向传播的必需条件。