【贝叶斯定理01】白话贝叶斯(原理篇)
托马斯·贝叶斯(Thomas Bayes)是18世纪的英国数学家,也是一位虔诚的牧师。贝叶斯定理是一个由结果倒推原因的概率算法,在贝叶斯提出这个条件概率公式后,很长一段时间,大家并没有觉得它有什么作用,并一直受到主流统计学派的排斥。
贝叶斯定理是一种描述在已知某些证据的情况下,如何更新某个事件概率的方法。
B站视频
CSDN
文章目录
- 1. 基本概念
- 📌 1.1 条件概率(Conditional Probability)
- 📌 1.2 联合概率(Joint Probability)
- 📌 1.3 边缘概率(Marginal Probability)
- 📌 1.4 贝叶斯定理(Bayes' Theorem)
- 2. 举例理解贝叶斯定理
- 2.1 贝叶斯定理的表示
- 2.2 贝叶斯定理的另一种表示
- 3. 案例计算
- 3.1 、 方法一
- 3.2 、 方法二
1. 基本概念
📌 1.1 条件概率(Conditional Probability)
条件概率是在事件 B B B 已经发生的前提下,事件 A A A 发生的概率,表示为: P ( A ∣ B ) P(A \mid B) P(A∣B)
读作“在 B B B 发生的条件下 A A A 发生的概率”。其计算公式为:
P ( A ∣ B ) = P ( A ∩ B ) P ( B ) , 前提是 P ( B ) > 0 P(A \mid B) = \frac{P(A \cap B)}{P(B)}, \quad \text{前提是 } P(B) > 0 P(A∣B)=P(B)P(A∩B),前提是 P(B)>0
📌 1.2 联合概率(Joint Probability)
联合概率是两个事件同时发生的概率,可以表示为:
P ( A ∩ B ) 或 P ( A , B ) 或 P ( A B ) P(A \cap B) \quad \text{或} \quad P(A, B) \quad \text{或} \quad P(AB) P(A∩B)或P(A,B)或P(AB)
当 P ( B ) > 0 P(B) > 0 P(B)>0,联合概率也可以通过条件概率表示为:
P ( A ∩ B ) = P ( A ∣ B ) ⋅ P ( B ) P(A \cap B) = P(A \mid B) \cdot P(B) P(A∩B)=P(A∣B)⋅P(B)
同理,也可以写为:
P ( A ∩ B ) = P ( B ∣ A ) ⋅ P ( A ) P(A \cap B) = P(B \mid A) \cdot P(A) P(A∩B)=P(B∣A)⋅P(A)
📌 1.3 边缘概率(Marginal Probability)
边缘概率是单个事件发生的概率,不考虑其他事件。对于事件 A A A,边缘概率记作: P ( A ) P(A) P(A)
它可以通过对联合概率进行边缘化(marginalization)得到:
- 对于离散变量:
P ( A ) = ∑ b ∈ B P ( A , b ) P(A) = \sum_{b \in B} P(A, b) P(A)=b∈B∑P(A,b)
- 对于连续变量:
P ( A ) = ∫ B P ( A , b ) d b P(A) = \int_{B} P(A, b) \, db P(A)=∫BP(A,b)db
📌 注意事项
这些概率定义中的事件 A A A 与 B B B 不一定有因果关系或时间顺序关系:
- A A A 可以先于 B B B 发生,也可以反之,或者同时发生;
- A A A 可能引起 B B B,也可能被 B B B 引起,或者两者之间没有因果关系。
📌 1.4 贝叶斯定理(Bayes’ Theorem)
当我们有一项新的信息 B B B,想要更新我们对 A A A 的概率判断时,可以使用贝叶斯公式:
P ( A ∣ B ) = P ( B ∣ A ) ⋅ P ( A ) P ( B ) P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)⋅P(A)
-
贝叶斯定理让我们可以根据新的证据动态调整概率;
-
先验概率 P ( H ) P(H) P(H),通过证据 E E E 更新为后验概率 P ( H ∣ E ) P(H\mid E) P(H∣E);
-
它体现了相信程度随信息变化 的思想,是统计推断、机器学习、决策理论的重要基础。
2. 举例理解贝叶斯定理
为了理解条件概率,我们换一个更简单的例子:掷两个骰子,一共可能出现的结果有6x6=36种:
这就是所谓的样本空间,每个样本的概率均为1/36,这个很好理解。
如果我们定义事件A为:至少有一个骰子是2,那么事件A的样本空间如下图2个相交矩形部分所示:
事件A一共有11种情况,我们计算事件A的概率P(A):
我们再定义事件B:两个骰子之和为7,那么事件B的样本空间如下图倾斜椭圆部分所示:
事件B一共有6种情况,我们计算事件B的概率P(B):
A和B同时的概率
显然A∩B只有两种情况,因此,计算P(A∩B):
接下来我们计算条件概率(Consider “conditional probabiliky)
P(A|B) : probability of A occurring given B is true
事件A在事件B发生的条件下发生的概率,因此坟墓的样本空间就是事件B
可见,条件概率P(A|B)和P(B|A)是不同的。
我们再回到A、B同时发生的概率,观察P(A∩B)可以改写为:
因此,根据上述两个等式,我们推导出下面的等式:
P ( A ∩ B ) = P ( A ∣ B ) × P ( B ) = P ( B ∣ A ) × P ( A ) P(A \cap B) = P(A \mid B) \times P(B) = P(B \mid A) \times P(A) P(A∩B)=P(A∣B)×P(B)=P(B∣A)×P(A)
把左边的 P ( A ∩ B ) P(A \cap B) P(A∩B) 去掉,我们得到等式:
P ( A ∣ B ) × P ( B ) = P ( B ∣ A ) × P ( A ) P(A \mid B) \times P(B) = P(B \mid A) \times P(A) P(A∣B)×P(B)=P(B∣A)×P(A)
最后,整理一下等式,我们推导出贝叶斯定理如下:
P ( A ∣ B ) = P ( B ∣ A ) × P ( A ) P ( B ) P(A \mid B) = \frac{P(B \mid A) \times P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)×P(A)
这就是著名的贝叶斯定理,它表示:当事件 B B B 发生时,如何计算事件 A A A 的概率。
2.1 贝叶斯定理的表示
很多时候,我们将 A A A 改写为 H H H,将 B B B 改写为 E E E:
P ( H ∣ E ) = P ( E ∣ H ) × P ( H ) P ( E ) P(H \mid E) = \frac{P(E \mid H) \times P(H)}{P(E)} P(H∣E)=P(E)P(E∣H)×P(H)
其中:
- H H H 表示 Hypothesis(假设)
- E E E 表示 Evidence(证据)
贝叶斯定理的意义在于:给定一个先验概率 P ( H ) P(H) P(H),在观察到证据 E E E 的情况下,计算后验概率 P ( H ∣ E ) P(H \mid E) P(H∣E)。
使用图片解释
2.2 贝叶斯定理的另一种表示
在上述计算中,我们发现计算 P ( E ) P(E) P(E) 是比较困难的,很多时候甚至无法直接知道 P ( E ) P(E) P(E)。
此时,我们可以使用贝叶斯定理的另一种表示形式来规避这一困难。
我们用 P ( H ) P(H) P(H) 表示事件 H H H(假设)发生的概率,用 H ‾ \overline{H} H 表示 H H H 不发生的事件,则:
P ( H ‾ ) = 1 − P ( H ) P(\overline{H}) = 1 - P(H) P(H)=1−P(H)
为了更清晰地表示这一点,我们可以将总概率 P ( E ) P(E) P(E) 表示为两种情况的加权和:
- 在 H H H 成立的前提下观察到 E E E 的概率: P ( E ∣ H ) × P ( H ) P(E \mid H) \times P(H) P(E∣H)×P(H)
- 在 H ‾ \overline{H} H 成立的前提下观察到 E E E 的概率: P ( E ∣ H ‾ ) × P ( H ‾ ) P(E \mid \overline{H}) \times P(\overline{H}) P(E∣H)×P(H)
可见, P ( E ) P(E) P(E) 可以分为两部分:
一部分是 E E E 和 H H H 的交集,另一部分是 E E E 和 H ‾ \overline{H} H 的交集:
P ( E ) = P ( E ∩ H ) + P ( E ∩ H ‾ ) P(E) = P(E \cap H) + P(E \cap \overline{H}) P(E)=P(E∩H)+P(E∩H)
根据前文提到的公式 P ( A ∩ B ) = P ( A ∣ B ) × P ( B ) P(A \cap B) = P(A \mid B) \times P(B) P(A∩B)=P(A∣B)×P(B),代入可得:
P ( E ) = P ( E ∣ H ) × P ( H ) + P ( E ∣ H ‾ ) × P ( H ‾ ) = P ( E ∣ H ) ⋅ P ( H ) + P ( E ∣ H ‾ ) ⋅ ( 1 − P ( H ) ) \begin{aligned} P(E) &= P(E \mid H) \times P(H) + P(E \mid \overline{H}) \times P(\overline{H}) \\ &= P(E \mid H) \cdot P(H) + P(E \mid \overline{H}) \cdot (1 - P(H)) \end{aligned} P(E)=P(E∣H)×P(H)+P(E∣H)×P(H)=P(E∣H)⋅P(H)+P(E∣H)⋅(1−P(H))
这进一步说明了为什么在实际问题中,我们不必直接知道 P ( E ) P(E) P(E),只需知道它在 H H H 与 H ‾ \overline{H} H 下的条件概率及 P ( H ) P(H) P(H),就可以利用贝叶斯定理进行推理。
因此:
P ( E ) = P ( E ∣ H ) ⋅ P ( H ) + P ( E ∣ H ‾ ) ⋅ P ( H ‾ ) P(E) = P(E \mid H) \cdot P(H) + P(E \mid \overline{H}) \cdot P(\overline{H}) P(E)=P(E∣H)⋅P(H)+P(E∣H)⋅P(H)
将其代入贝叶斯定理,可以得到贝叶斯定理的常见变形:
P ( H ∣ E ) = P ( E ∣ H ) ⋅ P ( H ) P ( E ∣ H ) ⋅ P ( H ) + P ( E ∣ H ‾ ) ⋅ ( 1 − P ( H ) ) P(H \mid E) = \frac{P(E \mid H) \cdot P(H)}{P(E \mid H) \cdot P(H) + P(E \mid \overline{H}) \cdot (1 - P(H))} P(H∣E)=P(E∣H)⋅P(H)+P(E∣H)⋅(1−P(H))P(E∣H)⋅P(H)
3. 案例计算
3.1 、 方法一
📊 计算
已知有一种疾病,发病率是 0.1 % 0.1\% 0.1%。针对这种疾病的测试非常准确:
- 若患病,测试准确率为 99 % 99\% 99%;
- 若健康,测试误报率为 2 % 2\% 2%。
现在,如果一个人检测为阳性,请问他患病的概率是多少?
我们用以下符号:
- H H H 表示“患病”;
- E E E 表示“检测为阳性”;
我们要求的是:在 E E E 发生的前提下,事件 H H H 发生的概率,即 P ( H ∣ E ) P(H \mid E) P(H∣E)。
根据贝叶斯定理:
P ( H ∣ E ) = P ( E ∣ H ) ⋅ P ( H ) P ( E ) P(H \mid E) = \frac{P(E \mid H) \cdot P(H)}{P(E)} P(H∣E)=P(E)P(E∣H)⋅P(H)
先来看各个概率项:
- P ( H ) = 0.1 % = 0.001 P(H) = 0.1\% = 0.001 P(H)=0.1%=0.001
- P ( E ∣ H ) = 99 % = 0.99 P(E \mid H) = 99\% = 0.99 P(E∣H)=99%=0.99
- P ( E ∣ H ‾ ) = 2 % = 0.02 P(E \mid \overline{H}) = 2\% = 0.02 P(E∣H)=2%=0.02
- P ( H ‾ ) = 1 − P ( H ) = 0.999 P(\overline{H}) = 1 - P(H) = 0.999 P(H)=1−P(H)=0.999
使用全概率公式计算 P ( E ) P(E) P(E):
P ( E ) = P ( E ∣ H ) ⋅ P ( H ) + P ( E ∣ H ‾ ) ⋅ P ( H ‾ ) = 0.99 ⋅ 0.001 + 0.02 ⋅ 0.999 = 0.00099 + 0.01998 = 0.02097 \begin{aligned} P(E) &= P(E \mid H) \cdot P(H) + P(E \mid \overline{H}) \cdot P(\overline{H}) \\ &= 0.99 \cdot 0.001 + 0.02 \cdot 0.999 \\ &= 0.00099 + 0.01998 = 0.02097 \end{aligned} P(E)=P(E∣H)⋅P(H)+P(E∣H)⋅P(H)=0.99⋅0.001+0.02⋅0.999=0.00099+0.01998=0.02097
代入贝叶斯公式:
P ( H ∣ E ) = 0.99 ⋅ 0.001 0.02097 = 0.00099 0.02097 ≈ 0.04721 P(H \mid E) = \frac{0.99 \cdot 0.001}{0.02097} = \frac{0.00099}{0.02097} \approx 0.04721 P(H∣E)=0.020970.99⋅0.001=0.020970.00099≈0.04721
即:
P ( H ∣ E ) ≈ 4.721 % P(H \mid E) \approx 4.721\% P(H∣E)≈4.721%
🧠 解读
虽然检测准确率很高,但由于发病率非常低,即使检测阳性,一个人真正患病的概率也只有约 4.72 % 4.72\% 4.72%,远小于直觉上认为的 99 % 99\% 99%。
原因在于:
健康人的基数远远大于病人,导致误报人数也远多于实际病人。
📊 辅助图示(简洁结构)
假设检测总人数为 100,000 人:
阳性总人数 = 99(真阳性)+ 1998(误报) = 2097
所以真正患病且阳性的人占比为:
99 2097 ≈ 4.721 % \frac{99}{2097} \approx 4.721\% 209799≈4.721%
3.2 、 方法二
📋
已知有一种疾病,发病率是 0.1 % 0.1\% 0.1%。针对这种疾病的测试非常准确:
- 如果患病,测试准确率是 99 % 99\% 99%;
- 如果健康,误报率是 2 % 2\% 2%。
如果一个人测试为阳性,请问他患病的概率是多少?
定义:
- P ( E ∣ H ) P(E\mid H) P(E∣H):患病时检测为阳性的概率, 99 % 99\% 99%;
- P ( H ) P(H) P(H):患病的概率, 0.1 % 0.1\% 0.1%;
- P ( E ∣ H ‾ ) P(E\mid \overline{H}) P(E∣H):未患病但检测为阳性的概率, 2 % 2\% 2%;
- P ( H ‾ ) P(\overline{H}) P(H):未患病的概率, 1 − P ( H ) = 99.9 % 1 - P(H) = 99.9\% 1−P(H)=99.9%。
根据贝叶斯定理,代入公式计算:
P ( H ∣ E ) = P ( E ∣ H ) × P ( H ) P ( E ∣ H ) × P ( H ) + P ( E ∣ H ‾ ) × P ( H ‾ ) P(H\mid E) = \frac{P(E\mid H)\times P(H)}{P(E\mid H)\times P(H) + P(E\mid \overline{H})\times P(\overline{H})} P(H∣E)=P(E∣H)×P(H)+P(E∣H)×P(H)P(E∣H)×P(H)
代入数值:
P ( H ∣ E ) = 0.99 × 0.001 0.99 × 0.001 + 0.02 × 0.999 = 0.00099 0.00099 + 0.01998 = 0.00099 0.02097 ≈ 0.04721 = 4.721 % \begin{aligned} P(H\mid E) &= \frac{0.99\times0.001}{0.99\times0.001 + 0.02\times0.999} \\ &= \frac{0.00099}{0.00099 + 0.01998} \\ &= \frac{0.00099}{0.02097} \\ &\approx 0.04721 \\ &= 4.721\% \end{aligned} P(H∣E)=0.99×0.001+0.02×0.9990.99×0.001=0.00099+0.019980.00099=0.020970.00099≈0.04721=4.721%
检测为阳性这一证据,使得患病的概率从 0.1 % 0.1\% 0.1% 提升到 4.721 % 4.721\% 4.721%。
🔥 进一步推导(二次检测)
假设此人又做了一次检测,结果仍然是阳性,那么他患病的概率是多少?
现在新的先验概率 P ( H ) P(H) P(H) 变成了上一次的后验概率,即 4.721 % 4.721\% 4.721%,其他条件保持不变。
继续使用贝叶斯定理:
P ( H ∣ E ) = P ( E ∣ H ) × P ( H ) P ( E ∣ H ) × P ( H ) + P ( E ∣ H ‾ ) × P ( H ‾ ) P(H\mid E) = \frac{P(E\mid H)\times P(H)}{P(E\mid H)\times P(H) + P(E\mid \overline{H})\times P(\overline{H})} P(H∣E)=P(E∣H)×P(H)+P(E∣H)×P(H)P(E∣H)×P(H)
其中:
- 新的 P ( H ) = 4.721 % = 0.04721 P(H) = 4.721\% = 0.04721 P(H)=4.721%=0.04721;
- P ( H ‾ ) = 1 − 0.04721 = 0.95279 P(\overline{H}) = 1 - 0.04721 = 0.95279 P(H)=1−0.04721=0.95279;
代入数值计算:
P ( H ∣ E ) = 0.99 × 0.04721 0.99 × 0.04721 + 0.02 × 0.95279 = 0.0467379 0.0467379 + 0.0190558 = 0.0467379 0.0657937 ≈ 0.7103 = 71.03 % \begin{aligned} P(H\mid E) &= \frac{0.99\times0.04721}{0.99\times0.04721 + 0.02\times0.95279} \\ &= \frac{0.0467379}{0.0467379 + 0.0190558} \\ &= \frac{0.0467379}{0.0657937} \\ &\approx 0.7103 \\ &= 71.03\% \end{aligned} P(H∣E)=0.99×0.04721+0.02×0.952790.99×0.04721=0.0467379+0.01905580.0467379=0.06579370.0467379≈0.7103=71.03%
第二次检测阳性后,患病概率从 4.721 % 4.721\% 4.721% 提升到了 71 % 71\% 71%!
🚀 如果第三次检测仍然阳性?
继续第三次阳性,患病概率将进一步提高,约为 99.18 % 99.18\% 99.18%。
🎯 小结
贝叶斯定理的核心思想就是:
不断根据新的证据,将先验概率调整为后验概率,使之更接近客观事实。
每次新的检测结果(证据)到来,就重新应用贝叶斯定理更新概率。
参考链接
一文搞懂贝叶斯定理(原理篇)
YouTube
维基百科