当前位置：首页 > backend >正文

自注意力机制self-attention

backend 2025/7/12 22:46:13

简介：

输入和输出方式：

Sequence Labeling：

self-attention运作方式：

一：怎么从vector得到b1

二：利用矩阵的方法怎么得到

Multi-head Self-attention：

positional encoding：位置编码

Self-attention的应用：

Self-attention 与 CNN的差别和相同点：

Self-attention 与 RNN的差别和相同点：

简介：

Sophisticated Input之前的输入一个向量输出一个数值，如果输入很复杂，比如输入的是一个句子，每个文字是一个向量表示的，那么每一次输入的都是未知长度的向量组。（用一个很长的向量表示每一个中文的汉字，n个维度向量可以表示2的n次方个汉字），一段音频可以看成一组向量。

输入和输出方式：

Sequence Labeling：

词性标注：I saw a saw。我看到一把锯子。saw做了动词也做了名词。如果只是单个的词语考虑，会分辨不出来，这里要考虑一整个句子，self-attention就是考虑整个句子，然后把输入向量转变为输出向量，并且输入几个就会输出几个。

self-attention运作方式：

一：怎么从vector得到b1

输入一排a向量输出一排b，a和b的数量相等，而且每个b都要考虑全部的a，生成b1时要考虑a1与全部其他的a向量，计算关联程度记作attention score（关联分数），方式如下。

现在已经计算出来了每个向量与a1的关联性。

二：利用矩阵的方法怎么得到

a1....a4每一个a都要得到qkv，每一个a都乘一个Wq得到q

那么可以直接把a1a2a3a4看成一个矩阵乘Wq，直接得到q1q2q3q4。

kv同理。

那么计算q1的α11，α12，α13，α14可以看成k1234×q1的矩阵。

计算q2q3q4的时候同理。

即A=K转制×Q，A进行softmax得到A`

那么b1即等于：

I为input乘上Wq、Wk、Wv得到Q、K、V，K的转制乘Q得到A，A进行softmax得到A`（Attention Matrix）。V乘A`得到了O，O即为self-attention的输出。

只有Wq、Wk、Wv是未知的，需要根据训练资料找出来。

Multi-head Self-attention：

相关这个事有很多种形式很多种定义，不能只有一个q，应该有多个q'来描述“相关”。

positional encoding：位置编码

self-attention少了一个很重要的信息，即位置的信息，如果是输入一段原始数据是句子的向量，那么每个向量的位置表示输入的句子中每个词语的位置，这个位置信息很重要。

positional encoding为每个位置设定一个vector，记作ei，加到ai上面，

Self-attention的应用：

NLP、Transformer、BERT、语音识别、影像... ...

语音识别上，语音的Attention Matrix会非常大，可以用到Truncated Self-attention，他的作用是在做语音识别的时候，不要看一整句话，只看一个小部分即可。这个部分的大小由人设定

影像上，长宽和RGB，可以把同一个长宽处的RGB看成一个向量。那么这个5×10的图片可以看成5×10个三维的向量。

Self-attention 与 CNN的差别和相同点：

CNN是简化版的Self-attention，CNN只考虑receptive file里面的信息，而在做Self-attention的时候，考虑整张图片的信息。

随着资料量越来越多，Self-attention的结果越来越好，在资料量足够大的时候，Self-attention可以超过CNN。但是资料量少的时候，CNN是好于Self-attention的，原因是：Self-attention弹性大，需要更多的资料训练，训练资料少的时候会overfitting，CNN弹性小，资料少的时候就可以训练好。