为什么三头QKV 矩阵和全部的词嵌入向量矩阵相乘,能区分关注不同维度,谁决定的:独立的权重矩阵初始化和多头计算过程

在多头注意力机制中,虽然是三头的QKV矩阵分别和全部的词嵌入向量矩阵相乘,但最终能区分关注不同维度, 这是由独立的权重矩阵初始化和多头计算过程决定的
独立的权重矩阵初始化
每个注意力头都有独立初始化的Q(查询)、K(键)、V(值)权重矩阵。在训练过程中,这些权重矩阵通过反向传播和梯度下降进行优化,使得每个头能够学习到不同的特征表示。
比如,我们假设词嵌入向量维度为dmodel=12d_{model} = 12d