当前位置：首页 > ai >正文

正态分布 - 正态分布的经验法则（68-95-99.7 法则）

ai 2025/9/7 10:02:57

正态分布 - 正态分布的经验法则（68-95-99.7 法则）

flyfish

完整代码在文末
在这里插入图片描述

正态分布的经验法则（68-95-99.7 法则）

经验法则（Empirical Rule），也叫 68-95-99.7 法则，就是对正态分布数据的一种简明、直观的描述：

大约 68% 的观测值会落在均值 ±1 个标准差的区间内；
大约 95% 的观测值会落在均值 ±2 个标准差的区间内；
大约 99.7% 的观测值会落在均值 ±3 个标准差的区间内。

这就是人们常说的 “一倍标准差 68%，二倍标准差 95%，三倍标准差几乎全覆盖”。

这究竟是一个严格的数学定理，还是仅仅是一个经验总结？

正态分布的数学定义

一个随机变量 $X$ 服从均值为 $μ\mu$ ，标准差为 $σ\sigma$ 的正态分布，记作

$\sim N(\mu, \sigma^2)$

它的概率密度函数为：

$\frac{1}{\sqrt{2 \pi \sigma^2}} \exp\!\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$

其图像呈现对称的钟形曲线，峰值在 $μ\mu$ ，曲线宽窄由 $σ\sigma$ 决定。

由于正态分布没有解析积分表达式（即无法写出分布函数的闭合形式），所以我们往往借助数值积分或标准正态分布表来查找概率。

经验法则的数学推导

所谓 68-95-99.7 法则，其实就是在正态分布中计算以下概率：

$P(μ−σ≤X≤μ+σ)P(\mu - \sigma \leq X \leq \mu + \sigma)$
$P(μ−2σ≤X≤μ+2σ)P(\mu - 2\sigma \leq X \leq \mu + 2\sigma)$
$P(μ−3σ≤X≤μ+3σ)P(\mu - 3\sigma \leq X \leq \mu + 3\sigma)$

通过变量标准化，即设

$\frac{X - \mu}{\sigma}, \quad Z \sim N(0,1)$

这些概率问题就化为标准正态分布 $N (0, 1)$ 的积分：

$\leq Z \leq 1) = \Phi(1) - \Phi(-1)$
$\leq Z \leq 2) = \Phi(2) - \Phi(-2)$
$\leq Z \leq 3) = \Phi(3) - \Phi(-3)$

其中 $Φ(z)\Phi(z)$ 是标准正态分布的累积分布函数（CDF）。查表或数值计算可得：

$Φ(1)≈0.8413\Phi(1) \approx 0.8413$ ，所以 $\leq Z \leq 1) \approx 0.6826$ （约 68%）。
$Φ(2)≈0.9772\Phi(2) \approx 0.9772$ ，所以 $\leq Z \leq 2) \approx 0.9544$ （约 95%）。
$Φ(3)≈0.99865\Phi(3) \approx 0.99865$ ，所以 $\leq Z \leq 3) \approx 0.9973$ （约 99.7%）。

这就是经验法则中的 68%、95%、99.7% 的来源。

它是数学定理吗？

严格地说，68-95-99.7 法则并不是一个普适定理，而是正态分布下的数值近似结果。

它对 正态分布 来说是严格计算出来的概率值，虽然四舍五入成了“68%、95%、99.7%”，但并非近似经验，而是 精确积分的数值近似。
但是，如果数据并非正态分布，而是偏态分布、长尾分布、均匀分布等，那么这个法则就不成立。

所以说：

在正态分布的世界里，这可以视为一个 定量结果（基于积分的事实）；
在统计应用中，由于很多数据近似正态分布，人们才把它称作 经验法则。

换句话说，它不是像勾股定理那样的数学定理，而是 一个数值上非常好记的近似结果。

统计直觉

为什么经验法则如此受欢迎？因为它给了我们一种极其直观的判断方式：

如果一组数据大致服从正态分布，那么大多数（约 2/3）数据点会落在均值 ±1σ 以内，这就是“常态波动范围”。
如果一个点落在 ±2σ 以外，就已经比较少见（大约 5% 的概率）。
如果一个点落在 ±3σ 以外，那几乎可以认为是异常值（outlier）。

这就为很多领域提供了 异常检测、风险判断、质量控制 的工具。例如：

在制造业中，±3σ 管理就是著名的 六西格玛（Six Sigma）质量管理。
在金融中，股票收益大多近似正态分布，±2σ 之外的收益率就可以视为“极端风险”。
在教育测量中，智商 IQ 的均值设定为 100，标准差为 15，那么 95% 的人智商都在 70–130 之间。

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import normplt.rcParams["font.family"] = ["SimHei", "sans-serif"]
plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示问题
# 参数设置：均值和标准差
mu = 1150
sigma = 150# 生成x值范围：从mu - 4*sigma 到 mu + 4*sigma，以覆盖整个曲线
x = np.linspace(mu - 4*sigma, mu + 4*sigma, 1000)# 计算PDF
pdf = norm.pdf(x, mu, sigma)# 创建 figure 和 axes
fig, ax = plt.subplots(figsize=(12, 6))# 绘制钟形曲线
ax.plot(x, pdf, color='black', linewidth=2)# 填充区域以显示百分比
# -3SD to -2SD and +2SD to +3SD: 2.35%
ax.fill_between(x, pdf, where=((x >= mu - 3*sigma) & (x < mu - 2*sigma)), color='lightblue', alpha=0.5)
ax.fill_between(x, pdf, where=((x > mu + 2*sigma) & (x <= mu + 3*sigma)), color='lightblue', alpha=0.5)# -2SD to -1SD and +1SD to +2SD: 13.5%
ax.fill_between(x, pdf, where=((x >= mu - 2*sigma) & (x < mu - 1*sigma)), color='blue', alpha=0.3)
ax.fill_between(x, pdf, where=((x > mu + 1*sigma) & (x <= mu + 2*sigma)), color='blue', alpha=0.3)# -1SD to +1SD: 68% (34% each side)
ax.fill_between(x, pdf, where=((x >= mu - 1*sigma) & (x <= mu)), color='teal', alpha=0.7)
ax.fill_between(x, pdf, where=((x > mu) & (x <= mu + 1*sigma)), color='teal', alpha=0.7)# 添加垂直虚线 for SD markers
sd_lines = [mu - 3*sigma, mu - 2*sigma, mu - 1*sigma, mu, mu + 1*sigma, mu + 2*sigma, mu + 3*sigma]
for sd in sd_lines:ax.axvline(sd, color='gray', linestyle='--', linewidth=1)# 添加底部标签
labels = ['700\nM -3SD', '850\nM -2SD', '1000\nM -1SD', '1150\nM', '1300\nM +1SD', '1450\nM +2SD', '1600\nM +3SD']
for i, label in enumerate(labels):ax.text(sd_lines[i], -0.0001, label, ha='center', va='top', fontsize=10)# 添加百分比标签在曲线下方
percent_labels = ['2.35%', '13.5%', '34%', '34%', '13.5%', '2.35%']
positions = [(mu - 2.5*sigma), (mu - 1.5*sigma), (mu - 0.5*sigma), (mu + 0.5*sigma), (mu + 1.5*sigma), (mu + 2.5*sigma)]
for pos, pct in zip(positions, percent_labels):ax.text(pos, 0.0005, pct, ha='center', fontsize=12, color='black')# 添加顶部水平线和百分比
ax.hlines(y=0.0026, xmin=mu - 3*sigma, xmax=mu + 3*sigma, color='purple', linestyle='-', linewidth=1)
ax.text(mu, 0.0027, '99.7%', ha='center', fontsize=12, color='purple')ax.hlines(y=0.0022, xmin=mu - 2*sigma, xmax=mu + 2*sigma, color='purple', linestyle='-', linewidth=1)
ax.text(mu, 0.0023, '95%', ha='center', fontsize=12, color='purple')ax.hlines(y=0.0018, xmin=mu - 1*sigma, xmax=mu + 1*sigma, color='purple', linestyle='-', linewidth=1)
ax.text(mu, 0.0019, '68%', ha='center', fontsize=12, color='purple')# 添加箭头（近似图片中的箭头）
ax.annotate('', xy=(mu - 3*sigma, 0.0026), xytext=(mu + 3*sigma, 0.0026),arrowprops=dict(arrowstyle='<->', color='purple'))
ax.annotate('', xy=(mu - 2*sigma, 0.0022), xytext=(mu + 2*sigma, 0.0022),arrowprops=dict(arrowstyle='<->', color='purple'))
ax.annotate('', xy=(mu - 1*sigma, 0.0018), xytext=(mu + 1*sigma, 0.0018),arrowprops=dict(arrowstyle='<->', color='purple'))# 设置标题和轴
ax.set_title('在正态分布中使用经验法则', fontsize=16)# Using the empirical rule in a normal distribution
ax.set_xlim(mu - 4*sigma, mu + 4*sigma)
ax.set_ylim(0, 0.003)
ax.axis('off')  # 移除轴线以匹配图片# 显示图表
plt.show()