当前位置：首页 > news >正文

深入浅出伯努利分布：从 0‑1 随机世界到统计学习基石

news 2025/9/4 17:25:18

深入浅出伯努利分布：从 0‑1 随机世界到统计学习基石

“当你能把一个问题拆解成一系列“是/否”答案时，伯努利分布就是第一块砖。”

引言：伯努利分布为何如此重要？
历史回顾：从赌博到信息论
形式化定义与基本表示
三种视角下的推导
- 4.1 样本空间法
- 4.2 最大熵原理
- 4.3 二项分布特例
核心数学性质
- 5.1 概率质量函数 (PMF)
- 5.2 累积分布函数 (CDF)
- 5.3 矩与中心矩
- 5.4 偏度、峰度
- 5.5 矩生成函数 (MGF) 与特征函数 (CF)
- 5.6 熵、交叉熵与 KL 散度
指数族与共轭先验
参数估计与区间估计
- 7.1 最大似然估计 (MLE)
- 7.2 方法矩估计 (MoM)
- 7.3 贝叶斯更新 (Beta 共轭)
- 7.4 置信区间：Wald、Wilson、Clopper–Pearson
假设检验与检验功效
与其他分布的关系
典型应用场景
常见误区与 FAQ
思维导图全景
小结与延伸阅读

1. 引言：伯努利分布为何如此重要？

最原始的“是否”问题：电子邮件是否为垃圾邮件？零件是否合格？用户是否点击广告？
基础地位：伯努利分布是离散分布王国的砖石基石，所有二项分布、几何分布、负二项分布及二分类模型都由它延伸。
机器学习核心：在深度学习中，二分类的交叉熵损失函数就是建立在伯努利假设之上。
信息论根基：Shannon 熵在二元信源下自然归结为伯努利熵。

理解伯努利分布，等于理解“二分类随机现象”的所有奥秘。

2. 历史回顾：从赌博到信息论

1713：Jakob Bernoulli 首次研究“伯努利试验”（两种结果随机试验）。
19 世纪：Poisson、De Morgan 等将其深入到二项分布与泊松极限。
1948：Claude Shannon 用二元信源推导信息熵公式，伯努利分布成为信息论的原点。
现代：从 A/B 测试到神经网络，伯努利分布的身影无处不在。

3. 形式化定义与基本表示

伯努利随机变量 $X$ 仅取值 ${0,1\}$ ，记作

$\sim \mathrm{Bernoulli}(p)$

$P (X = 1) = p$ （“成功”概率）；
$P (X = 0) = 1 - p$ （“失败”概率）；
参数 $p\in[0,1]$ ，代表单次试验的期望值： $E [X] = p$ 。

统一写法（指数族形式）：
[
P(X=x)=p^x,(1-p){1-x},\quad x\in{0,1}.
]

4. 三种视角下的推导

4.1 样本空间法

样本空间 $\Omega=\{\omega_0,\omega_1\}$ ，分别指“失败”和“成功”。
赋予 $P(\omega_1)=p,\;P(\omega_0)=1-p$ 。
定义指示变量 $X(\omega)=1_{\{\omega=\omega_1\}}$ ，立得上式 PMF。

4.2 最大熵原理

约束：

$\sum_x P(x)=1$ ；
$E [X] = p$ 。
目标：最大化
[
H§=-\sum_{x=0}^1 P(x),\ln P(x).
]
使用拉格朗日乘子可解出
[
P(1)=p,;P(0)=1-p.
]
结论：在只指定期望的前提下，伯努利分布拥有最大不确定性。

4.3 二项分布特例

二项分布： $Y\sim \mathrm{Binomial}(n,p)$ ， $P(Y=k)=\binom n k p^k(1-p)^{n-k}$ .
令 $n = 1$ ， $\binom1x=1$ ，则 $k\in\{0,1\}$ ，恰得伯努利分布。

5. 核心数学性质

性质	符号 / 公式	说明
期望	$E [X] = p$
方差	$\mathrm{Var}(X)=p(1-p)$	最大值 $0.25$ 于 $p = 0.5$
二阶矩	$E[X^2]=p$	因 $X^2=X$
偏度 (Skewness)	$\gamma_1=\frac{1-2p}{\sqrt{p(1-p)}}$	$p = 0.5$ 对称
峰度 (Kurtosis)	$\gamma_2=\frac{1-6p(1-p)}{p(1-p)}$
MGF	$M_X(t)=E[e^{tX}]=1-p+pe^t$
CF	$\phi_X(t)=E[e^{itX}]=1-p+pe^{it}$
熵	$H(p)=-p\ln p-(1-p)\ln(1-p)$	单位：nats (ln) / bits (log₂)
交叉熵	$H(p,q)=-p\ln q-(1-p)\ln(1-q)$	衡量两个 Bernoulli 的差异
KL 散度	$D_{KL}(p\|q)=p\ln\frac{p}{q}+(1-p)\ln\frac{1-p}{1-q}$

5.1 累积分布函数 (CDF)

[
F(x)=
\begin{cases}
0, & x<0;\
1-p, & 0\le x<1;\
1, & x\ge1.
\end{cases}
]

6. 指数族与共轭先验

指数族形式：
[
P(x)=\exp\bigl{x\ln\frac p{1-p} + \ln(1-p)\bigr}
]
自然参数 $\theta=\ln\frac p{1-p}$ ，充分统计量 $T (x) = x$ 。
Beta 共轭先验：设先验 $p\sim \mathrm{Beta}(\alpha,\beta)$ ，观测到 $s$ 次成功、 $f$ 次失败，则后验
[
p\mid\text{data}\sim \mathrm{Beta}(\alpha+s,;\beta+f).
]

7. 参数估计与区间估计

7.1 最大似然估计 (MLE)

观测样本 ${x_i\}_{i=1}^n$ ，对数似然：
[
\ln L§=\sum_i \bigl[x_i\ln p + (1-x_i)\ln(1-p)\bigr].
]
解得
[
\hat p_{\mathrm{MLE}}=\frac1n\sum_{i=1}^n x_i = \bar x.
]

7.2 方法矩估计 (MoM)

理论一阶矩 $E [X] = p$ ，令样本平均 $\bar x$ = 理论矩，得同样结果 $\hat p_{\mathrm{MoM}}=\bar x$ 。

7.3 贝叶斯更新 (Beta 共轭)

先验 $\mathrm{Beta}(\alpha,\beta)$ ，观测成功 $s$ ，失败 $f = n - s$
后验 $\mathrm{Beta}(\alpha+s,\beta+f)$
后验均值 $\dfrac{\alpha+s}{\alpha+\beta+n}$ 带平滑效应。

7.4 置信区间

方法	区间估计	备注
Wald	$\hat p\pm z_{\alpha/2}\,\sqrt{\hat p(1-\hat p)/n}$	简单，但小样本或 $p$ 边缘易失败
Wilson	$\dfrac{\hat p + z^2/(2n)\pm z\sqrt{\frac{\hat p(1-\hat p)}n + \frac{z^2}{4n^2}}}{1+z^2/n}$	小样本表现更好
Clopper–Pearson	基于 Beta 反函数	精确区间，略保守

8. 假设检验与检验功效

单样本比例检验
- 大样本 $z$ 检验：
  [
  Z=\frac{\hat p - p_0}{\sqrt{p_0(1-p_0)/n}} \sim N(0,1).
  ]
- 小样本：Binomial Exact Test（Fisher 精确检验）。
双样本比例检验
- 比较两个独立样本 $\hat p_1,\hat p_2$ ，联合 $z$ 检验或 Fisher 精确。
检验功效 (Power)
- 给定效应量 $\Delta=p_1-p_0$ ，可反算所需样本量 $n$ 满足指定功效 β。

9. 与其他分布的关系

二项分布： $n$ 次独立伯努利之和。
几何分布：首次成功前的失败次数，支持 $\{0,1,2,\dots\}$ 。
负二项分布：达到 $r$ 次成功所需的试验次数。
泊松近似：当 $n$ 大、 $p$ 小、 $\lambda=np$ 固定时，二项趋于 Poisson( $\lambda$ )。
正态近似：当 $n$ 大时， $\mathrm{Bin}(n,p)\approx N(np,np(1-p))$ ；特殊 $n = 1$ 则退化。
Beta–Binomial：Beta 先验 + Binomial 数据 → 复合模型，处理过度离散。

10. 典型应用场景

A/B Test & 点击率
- 用户点击（1）与未点击（0）的分布建模。
可靠性工程
- 组件一次测试是否通过合格（1）/不合格（0）。
医学诊断
- 检测结果阳性 vs 阴性。
二分类机器学习
- 标签 $y\in\{0,1\}$ ，模型输出 $\hat p$ ，损失=交叉熵。
信息论
- 单比特信源的信息熵 $H (p)$ 即伯努利熵。

11. 常见误区与 FAQ

误区	纠正说明
“方差 = p”	正确是 $p (1 - p)$ ；只有 $p = 0, 1$ 时方差为 0。
“MLE 不稳定”	当 $n$ 小且 $\hat p$ 接近 0/1 时，Wald 区间会失效，应用 Wilson 或 Clopper–Pearson。
“伯努利=公平抛硬币”	抛硬币只是 $p = 0.5$ 的特例，任何二元事件都可用伯努利建模。
“交叉熵 ≠ 负对数似然”	在二分类里二者恰为同一表达，但上下文侧重点不同：信息论 vs 统计学。

12. 思维导图全景

mindmaproot((伯努利分布 Bern(p)))定义PMF: p^x(1-p)^{1-x}支持: {0,1}参数: p∈[0,1]推导样本空间最大熵Binomial n=1数学性质E[X]=pVar[X]=p(1-p)MGF:1−p+pe^t熵:-p ln p-(1-p) ln(1-p)KL(p||q)指数族自然参 θ=ln(p/(1-p))Beta 共轭(α,β)估计MLE: p̂=Σx_i/nMoM: 同MLEBayesian: Beta→BetaCI: Wald, Wilson, CP检验单样本 z-testExact Binomial test双样本比例检验关联分布Binomial(n,p)GeometricNegBinomialPoisson 极限应用A/B 测试可靠性医学诊断二分类交叉熵信息熵注意事项方差=均值? NO小样本用哪种区间?p 边界问题