当前位置：首页 > news >正文

面试常问系列(一)-神经网络参数初始化-之自注意力机制为什么除以根号d而不是2根号d或者3根号d

news 2025/7/1 15:15:17

首先先罗列几个参考文章，大家之后可以去看看，加深理解：

面试常问系列(一)-神经网络参数初始化
面试常问系列(一)-神经网络参数初始化之自注意力机制_注意力机制的参数初始化怎么做-CSDN博客
面试常问系列(一)-神经网络参数初始化-之-softmax-CSDN博客

好，步入正题，我们假定各位读者看过上面👆几篇文章，已经了解了，为什么自注意力机制中要使用 $\sqrt{d}$ 进行缩放，然后我们进一步进行探究，为什么不是 $2\sqrt{d}$ 。

1、实例

1.点击没有缩放的时候，标准差的范围

在【- $\sqrt{d}$ ， $\sqrt{d}$ 】，有68.26%的值在这个区间，
在【-2 $\sqrt{d}$ ，2 $\sqrt{d}$ 】，有95.45%的值在这个区间，
在【-3 $\sqrt{d}$ ，3 $\sqrt{d}$ 】，有99.73%的值在这个区间，

参考：正态分布_百度百科

2.点击缩放 $\sqrt{d}$ 的时候，标准差的范围从 $\sqrt{d}$ 到 1

x在【-1，1】， $e^x$ 在【0.37，2.72】有68.26%的值在这个区间，
x在【-2，2】， $e^x$ 有【0.14，7.39】95.45%的值在这个区间，
x在【-3，3】， $e^x$ 有【0.05，20.09】99.73%的值在这个区间，

3.点击缩放2 $\sqrt{d}$ 的时候，标准差的范围从 $\sqrt{d}$ 到 0.5

x在【-0.5，0.5】， $e^x$ 在【0.61，1.65】有68.26%的值在这个区间，
x在【-1，1】， $e^x$ 有【0.37，2.72】95.45%的值在这个区间，
x在【-1.5，1.5】， $e^x$ 有【0.22，4.48】99.73%的值在这个区间，

2、实例总结(重点)

通过上述的不同缩放比例，大家应该可以比较清晰的发现，以一个标准差(68.26%)为例，随着缩放比例加大，变化范围减小，点击值被过度压缩，导致相对趋于均匀，从而无法很好的捕捉不同特征之间的差异，趋于大家都一样的感觉，区分度被缩小。大家感兴趣的可以实操看一下，softmax在不同缩放比例下的分布情况。

3、梯度特性

若除以2 $\sqrt{d}$ ，Softmax输入的方差过小，导致梯度值普遍偏低，模型训练效率显著下降。例如，在机器翻译任务中，使用2 $\sqrt{d}$ 的BLEU分数可能下降2-3个点。

4、实验验证

收敛速度对比

在WMT14英德翻译任务中，使用 $\sqrt{d}$ 的Transformer模型在5万步迭代后达到收敛，而使用2 $\sqrt{d}$ 的模型需8万步迭代，且最终BLEU分数低1.5个点。

数值稳定性测试

通过模拟高维向量（d=1024）的点积计算，发现：

a. $\sqrt{d}$ 缩放后，Softmax输入的最大值约为5，最小值约为-5，梯度值集中在[0.1,0.5]；

b. 2 $\sqrt{d}$ 缩放后，Softmax输入的最大值约为2.5，最小值约为-2.5，梯度值集中在[0.01,0.1]，导致训练缓慢。

泛化能力分析
- 在GLUE基准测试中， $\sqrt{d}$ 缩放的模型在MNLI、QQP等任务上的准确率比2 $\sqrt{d}$ 模型高1-2个百分点，表明其泛化能力更强。

参考：

https://zhuanlan.zhihu.com/p/32150751004

查看全文

http://www.xdnf.cn/news/309151.html

最新版Google浏览器加载ActiveX控件之VLC五一节特别版

Marin说PCB之1000-BASE-T1的PCB设计总结--04

DeepSeek：突破AI搜索的无限可能

ProteinTools辅助探索蛋白稳定性、动态调控以及结构关系

优化04-选择率和直方图

意识场方程与道函数赋能的三智双融体系建构

Xcode16提交App Store审核时提示bitcode报错

vue3在使用@import “./index.scss“报错

互联网法院在NFT、元宇宙等新兴领域的规则创新

江苏正力新能Verify认知能力测评笔试已通知 | SHL测评题库预测题 | 华东同舟求职讲求职

园区网的发展

Hologres x 函数计算 x Qwen3，对接MCP构建企业级数据分析 Agent

深度可分离卷积（0）

Linux 网络编程 day5 多路IO转接之改进select and poll

【LeetCode Hot100 | 每日刷题】二叉树的层序遍历

MySQL 触发器（Trigger）讲解

OpenCV 图形API（80）图像与通道拼接函数-----仿射变换函数warpAffine()

SAP修改数据库表

大疆三方云平台部署

网页截图指南

PDF内容搜索--支持跨文件夹多文件、组合词搜索

debian中笔记本的省电选择auto-cpufreq

解决windows重启后分辨率问题

2025最新出版 Microsoft Project由入门到精通

雅思阅读--重点短语/句式39个

小红书怎么看自己ip地址？小红书更改ip地址教学

1、实例

2、实例总结(重点)

3、梯度特性

4、实验验证

参考：

相关文章：