当前位置: 首页 > news >正文

概率论基础教程第3章条件概率与独立性(三)

3.4 P(⋅∣F)P(\cdot|F)P(F) 是概率

公理

条件概率满足普通概率的所有性质。命题 5.1 证明了条件概率 P(E∣F)P(E|F)P(EF) 满足概率的三条公理。

命题 5.1
(a) 0≤P(E∣F)≤10 \leq P(E|F) \leq 10P(EF)1
(b) P(S∣F)=1P(S|F) = 1P(SF)=1
© 若 EiE_iEi (i=1,2,…i=1,2,\ldotsi=1,2,) 为互不相容的事件序列,则
P(⋃i=1∞Ei∣F)=∑i=1∞P(Ei∣F) P\left(\bigcup_{i=1}^{\infty} E_i | F\right) = \sum_{i=1}^{\infty} P(E_i | F) P(i=1EiF)=i=1P(EiF)

证明
(a) 由 0≤P(EF)≤P(F)0 \leq P(EF) \leq P(F)0P(EF)P(F),可得 0≤P(EF)P(F)≤10 \leq \frac{P(EF)}{P(F)} \leq 10P(F)P(EF)1
(b) P(S∣F)=P(SF)P(F)=P(F)P(F)=1P(S|F) = \frac{P(SF)}{P(F)} = \frac{P(F)}{P(F)} = 1P(SF)=P(F)P(SF)=P(F)P(F)=1
©
P(⋃i=1∞Ei∣F)=P((⋃i=1∞Ei)F)P(F)=P(⋃i=1∞EiF)P(F)=∑i=1∞P(EiF)P(F)=∑i=1∞P(Ei∣F) \begin{aligned} P\left(\bigcup_{i=1}^{\infty} E_i | F\right) &= \frac{P\left(\left(\bigcup_{i=1}^{\infty} E_i\right) F\right)}{P(F)} = \frac{P\left(\bigcup_{i=1}^{\infty} E_i F\right)}{P(F)} \\ &= \frac{\sum_{i=1}^{\infty} P(E_i F)}{P(F)} = \sum_{i=1}^{\infty} P(E_i | F) \end{aligned} P(i=1EiF)=P(F)P((i=1Ei)F)=P(F)P(i=1EiF)=P(F)i=1P(EiF)=i=1P(EiF)

如果我们定义 Q(E)=P(E∣F)Q(E) = P(E|F)Q(E)=P(EF),那么根据命题 5.1,Q(E)Q(E)Q(E) 可以视为关于样本空间 SSS 中事件的概率函数。因此,前面证明的关于概率的命题它都满足。例如:
Q(E1∪E2)=Q(E1)+Q(E2)−Q(E1E2) Q(E_1 \cup E_2) = Q(E_1) + Q(E_2) - Q(E_1 E_2) Q(E1E2)=Q(E1)+Q(E2)Q(E1E2)
或者等价地,
P(E1∪E2∣F)=P(E1∣F)+P(E2∣F)−P(E1E2∣F) P(E_1 \cup E_2 | F) = P(E_1 | F) + P(E_2 | F) - P(E_1 E_2 | F) P(E1E2F)=P(E1F)+P(E2F)P(E1E2F)

条件独立性

事件的条件独立性是一个重要概念。如果已知 FFF 发生的条件下,E1E_1E1 发生的概率不因 E2E_2E2 是否发生而改变,则称事件 E1E_1E1E2E_2E2 关于给定的事件 FFF条件独立的(conditionally independent)。更确切地说,如果
P(E1∣E2F)=P(E1∣F) P(E_1 | E_2 F) = P(E_1 | F) P(E1E2F)=P(E1F)
或等价地,
P(E1E2∣F)=P(E1∣F)P(E2∣F) P(E_1 E_2 | F) = P(E_1 | F) P(E_2 | F) P(E1E2F)=P(E1F)P(E2F)
则称 E1E_1E1E2E_2E2 关于 FFF 是条件独立的。

例题

例 5a:考虑例 3a,保险公司认为人可以分为两种不同的类,一类易出事故,另一类不易出事故。在任意给定的一年内,易出事故者将发生事故的概率为 0.4,而对不易出事故者来说,此概率为 0.2。若已知某新保险客户在第一年已经出过一次事故,问他在保险有效的第二年又出一次事故的条件概率是多大?

:令 AAA 表示"该保险客户是易出事故者",AiA_iAi 表示"他在第 iii 年出一次事故"。则:
P(A2∣A1)=P(A2∣AA1)P(A∣A1)+P(A2∣AcA1)P(Ac∣A1) P(A_2 | A_1) = P(A_2 | AA_1) P(A | A_1) + P(A_2 | A^c A_1) P(A^c | A_1) P(A2A1)=P(A2AA1)P(AA1)+P(A2AcA1)P(AcA1)

[!NOTE]

首先,根据概率的基本性质,我们知道:
P(A2∣A1)=P(A1A2)P(A1)P(A_2 | A_1) = \frac{P(A_1 A_2)}{P(A_1)}P(A2A1)=P(A1)P(A1A2)

现在,考虑事件 AAA(客户是易出事故者)及其补集 AcA^cAc(客户不是易出事故者)。这两个事件是互斥且穷尽的,即:

  • AAAAcA^cAc 不能同时发生(互斥)
  • 要么 AAA 发生,要么 AcA^cAc 发生(穷尽)

因此,我们可以将 P(A1A2)P(A_1 A_2)P(A1A2) 分解为:
P(A1A2)=P(A1A2A)+P(A1A2Ac)P(A_1 A_2) = P(A_1 A_2 A) + P(A_1 A_2 A^c)P(A1A2)=P(A1A2A)+P(A1A2Ac)

代入条件概率公式:
P(A2∣A1)=P(A1A2)P(A1)=P(A1A2A)+P(A1A2Ac)P(A1)P(A_2 | A_1) = \frac{P(A_1 A_2)}{P(A_1)} = \frac{P(A_1 A_2 A) + P(A_1 A_2 A^c)}{P(A_1)}P(A2A1)=P(A1)P(A1A2)=P(A1)P(A1A2A)+P(A1A2Ac)

将分子拆分为两项:
P(A2∣A1)=P(A1A2A)P(A1)+P(A1A2Ac)P(A1)P(A_2 | A_1) = \frac{P(A_1 A_2 A)}{P(A_1)} + \frac{P(A_1 A_2 A^c)}{P(A_1)}P(A2A1)=P(A1)P(A1A2A)+P(A1)P(A1A2Ac)

现在,对每一项进行变形:
P(A1A2A)P(A1)=P(A1A2A)P(A1A)⋅P(A1A)P(A1)=P(A2∣A1A)⋅P(A∣A1)\frac{P(A_1 A_2 A)}{P(A_1)} = \frac{P(A_1 A_2 A)}{P(A_1 A)} \cdot \frac{P(A_1 A)}{P(A_1)} = P(A_2 | A_1 A) \cdot P(A | A_1)P(A1)P(A1A2A)=P(A1A)P(A1A2A)P(A1)P(A1A)=P(A2A1A)P(AA1)

同理:
P(A1A2Ac)P(A1)=P(A2∣A1Ac)⋅P(Ac∣A1)\frac{P(A_1 A_2 A^c)}{P(A_1)} = P(A_2 | A_1 A^c) \cdot P(A^c | A_1)P(A1)P(A1A2Ac)=P(A2A1Ac)P(AcA1)

因此:
P(A2∣A1)=P(A2∣A1A)⋅P(A∣A1)+P(A2∣A1Ac)⋅P(Ac∣A1)P(A_2 | A_1) = P(A_2 | A_1 A) \cdot P(A | A_1) + P(A_2 | A_1 A^c) \cdot P(A^c | A_1)P(A2A1)=P(A2A1A)P(AA1)+P(A2A1Ac)P(AcA1)

|这个例子直接应用了条件独立性的概念。关键在于,保险公司模型假设:一旦知道一个人是易出事故者还是不易出事故者,那么他各年出事故的事件是条件独立的。

具体来说,我们假设:

  • 在已知 AAA(客户是易出事故者)的条件下,A1A_1A1A2A_2A2 是条件独立的
  • 在已知 AcA^cAc(客户不是易出事故者)的条件下,A1A_1A1A2A_2A2 也是条件独立的

这意味着:
P(A2∣AA1)=P(A2∣A)=0.4 P(A_2 | AA_1) = P(A_2 | A) = 0.4 P(A2AA1)=P(A2A)=0.4

P(A2∣AcA1)=P(A2∣Ac)=0.2 P(A_2 | A^c A_1) = P(A_2 | A^c) = 0.2 P(A2AcA1)=P(A2Ac)=0.2

重要说明:注意 A1A_1A1A2A_2A2 在无条件时不是独立的。因为第一年出事故会影响我们对客户类型的判断(通过贝叶斯定理),从而间接影响第二年出事故的概率。但在已知客户类型的情况下,A1A_1A1A2A_2A2 是条件独立的。

其中
P(A∣A1)=P(A1∣A)P(A)P(A1)=0.4×0.30.26=613 P(A|A_1) = \frac{P(A_1|A)P(A)}{P(A_1)} = \frac{0.4 \times 0.3}{0.26} = \frac{6}{13} P(AA1)=P(A1)P(A1A)P(A)=0.260.4×0.3=136

P(Ac∣A1)=1−P(A∣A1)=713 P(A^c | A_1) = 1 - P(A | A_1) = \frac{7}{13} P(AcA1)=1P(AA1)=137

因为 P(A2∣AA1)=0.4P(A_2|AA_1)=0.4P(A2AA1)=0.4P(A2∣AcA1)=0.2P(A_2|A^c A_1)=0.2P(A2AcA1)=0.2,所以
P(A2∣A1)=0.4×613+0.2×713≈0.29 P(A_2 | A_1) = 0.4 \times \frac{6}{13} + 0.2 \times \frac{7}{13} \approx 0.29 P(A2A1)=0.4×136+0.2×1370.29

例 5b:一只母猩猩生了一只幼猩猩,但是,却不能断定两只公猩猩究竟哪一只是父亲。在进行基因分析之前,有迹象表明第一只公猩猩为父亲的概率为 ppp,第二只为父亲的概率为 1−p1-p1p。从这三只猩猩身上获得的 DNA 表明,对于一个特殊的基因组,母猩猩具有基因对 (A,A)(A,A)(A,A),第一只公猩猩具有基因对 (a,a)(a,a)(a,a),而第二只公猩猩具有基因对 (A,a)(A,a)(A,a)。如果 DNA 检验表明幼猩猩具有基因对 (A,a)(A,a)(A,a),那么第一只公猩猩是父亲的概率是多少?

:令 MiM_iMi (i=1,2i=1,2i=1,2) 表示第 iii 只公猩猩为父亲这一事件,BA,aB_{A,a}BA,a 表示幼猩猩具有基因对 (A,a)(A,a)(A,a)。则:
P(M1∣BA,a)=P(BA,a∣M1)P(M1)P(BA,a∣M1)P(M1)+P(BA,a∣M2)P(M2)=1×p1×p+1/2×(1−p)=2p1+p \begin{aligned} P(M_1 | B_{A,a}) &= \frac{P(B_{A,a} | M_1) P(M_1)}{P(B_{A,a} | M_1) P(M_1) + P(B_{A,a} | M_2) P(M_2)} \\ &= \frac{1 \times p}{1 \times p + 1/2 \times (1 - p)} = \frac{2p}{1 + p} \end{aligned} P(M1BA,a)=P(BA,aM1)P(M1)+P(BA,aM2)P(M2)P(BA,aM1)P(M1)=1×p+1/2×(1p)1×p=1+p2p

例 5c:设有一个独立重复试验序列,每次试验成功的概率为 ppp,失败的概率为 q=1−pq=1-pq=1p。计算长度为 nnn 的成功游程(连续 nnn 次成功)先于长度为 mmm 的失败游程(连续 mmm 次失败)出现的概率。

EEE 为事件"长度为 nnn 的成功游程先于长度为 mmm 的失败游程出现"。以第一次试验结果为条件:

  • HHH:第一次试验成功
  • HcH^cHc:第一次试验失败

根据全概率公式:
P(E)=P(E∣H)P(H)+P(E∣Hc)P(Hc)=pP(E∣H)+qP(E∣Hc)(1) P(E) = P(E|H)P(H) + P(E|H^c)P(H^c) = pP(E|H) + qP(E|H^c) \tag{1} P(E)=P(EH)P(H)+P(EHc)P(Hc)=pP(EH)+qP(EHc)(1)

假设第一次试验成功,令 FFF 表示"第 2 次到第 nnn 次试验均成功"(即前 nnn 次都成功)。

FFF 为条件:
P(E∣H)=P(E∣FH)P(F∣H)+P(E∣FcH)P(Fc∣H)(2) P(E|H) = P(E|FH)P(F|H) + P(E|F^cH)P(F^c|H) \tag{2} P(EH)=P(EFH)P(FH)+P(EFcH)P(FcH)(2)

  • P(F∣H)=pn−1P(F|H) = p^{n-1}P(FH)=pn1(因为第 2 次到第 nnn 次都成功的概率)
  • P(Fc∣H)=1−pn−1P(F^c|H) = 1 - p^{n-1}P(FcH)=1pn1
  • P(E∣FH)=1P(E|FH) = 1P(EFH)=1(因为前 nnn 次都成功,长度为 nnn 的成功游程已经出现)
  • P(E∣FcH)=P(E∣Hc)P(E|F^cH) = P(E|H^c)P(EFcH)=P(EHc)(当第一次失败发生时,前面的成功已失效,相当于从失败开始)

[!NOTE]

FcHF^cHFcH发生时,意味着:

  1. 第一次试验成功
  2. 在第2次到第nnn次试验中,至少有一次失败

疑问是:如果第一次失败发生在位置kkk2≤k≤n2 \leq k \leq n2kn),那么在kkk之后到nnn的位置,可能存在一段连续的成功,甚至可能达到nnn次成功。

用一个具体例子来说明,假设n=5n=5n=5(我们需要5次连续成功),m=3m=3m=3(我们需要3次连续失败):

情况1:序列是 S, S, F, S, S, S, S, S, …

  • 第一次失败在第3次试验
  • 从第4次到第8次,我们有5次连续成功
  • 在第8次试验后,我们形成了长度为5的成功游程

情况2:序列是 S, F, S, S, S, S, S, …

  • 第一次失败在第2次试验
  • 从第3次到第7次,我们有5次连续成功
  • 在第7次试验后,我们形成了长度为5的成功游程

在两种情况下,我们都最终形成了长度为5的成功游程,但形成的方式不同。

当我们计算P(E∣FcH)P(E|F^cH)P(EFcH)时,我们是在给定FcHF^cHFcH发生的条件下计算概率。这意味着我们知道:

  • 第一次试验成功
  • 在第2次到第5次试验中至少有一次失败

不知道第一次失败具体发生在哪一次试验,也不知道第一次失败之后发生了什么。

因此,P(E∣FcH)P(E|F^cH)P(EFcH)实际上是所有满足FcHF^cHFcH条件的序列中,最终形成长度为nnn的成功游程先于长度为mmm的失败游程的比例。

为什么P(E∣FcH)=P(E∣Hc)P(E|F^cH) = P(E|H^c)P(EFcH)=P(EHc)是正确的

考虑FcHF^cHFcH发生后的状态:

  1. 设第一次失败发生在第kkk次试验(2≤k≤n2 \leq k \leq n2kn
  2. 在第kkk次试验后,我们刚刚经历了一次失败
  3. 由于试验是独立的,从第k+1k+1k+1次试验开始的未来结果与过去的试验结果无关
  4. 因此,从第k+1k+1k+1次试验开始,我们需要决定是先形成nnn次连续成功还是mmm次连续失败

现在,考虑HcH^cHc发生后的状态:

  1. 第一次试验失败
  2. 在第1次试验后,我们刚刚经历了一次失败
  3. 从第2次试验开始,我们需要决定是先形成nnn次连续成功还是mmm次连续失败

关键洞察:在FcHF^cHFcH发生后,无论第一次失败发生在第kkk次试验(2≤k≤n2 \leq k \leq n2kn),从第k+1k+1k+1次试验开始的未来状态与HcH^cHc发生后从第2次试验开始的未来状态完全相同:

  • 我们刚刚经历了一次失败
  • 我们需要决定后续是先形成nnn次连续成功还是mmm次连续失败

由于试验是独立的,这两种情况下的概率分布是相同的。

  1. FcHF^cHFcH条件下,我们知道在第2次到第nnn次试验中至少有一次失败,所以不可能在前nnn次试验中形成长度为nnn的成功游程
  2. 我们关心的是在第nnn次试验之后,是先形成长度为nnn的成功游程还是长度为mmm的失败游程
  3. 在第一次失败发生后(无论它发生在第2次、第3次,…,还是第nnn次试验),我们所处的状态是相同的:刚刚经历了一次失败

因此,无论第一次失败发生在哪一次试验,在第一次失败发生后,形成长度为nnn的成功游程先于长度为mmm的失败游程的概率是相同的。

这就是为什么P(E∣FcH)=P(E∣Hc)P(E|F^cH) = P(E|H^c)P(EFcH)=P(EHc)

代入公式 (2):
P(E∣H)=1⋅pn−1+P(E∣Hc)⋅(1−pn−1) P(E|H) = 1 \cdot p^{n-1} + P(E|H^c) \cdot (1 - p^{n-1}) P(EH)=1pn1+P(EHc)(1pn1)

P(E∣H)=pn−1+(1−pn−1)P(E∣Hc)(3) P(E|H) = p^{n-1} + (1 - p^{n-1})P(E|H^c) \tag{3} P(EH)=pn1+(1pn1)P(EHc)(3)

假设第一次试验失败,令 GGG 表示"第 2 次到第 mmm 次试验均失败"(即前 mmm 次都失败)。

GGG 为条件:
P(E∣Hc)=P(E∣GHc)P(G∣Hc)+P(E∣GcHc)P(GcHc)(4) P(E|H^c) = P(E|GH^c)P(G|H^c) + P(E|G^cH^c)P(G^cH^c) \tag{4} P(EHc)=P(EGHc)P(GHc)+P(EGcHc)P(GcHc)(4)

  • P(G∣Hc)=qm−1P(G|H^c) = q^{m-1}P(GHc)=qm1(因为第 2 次到第 mmm 次都失败的概率)
  • P(Gc∣Hc)=1−qm−1P(G^c|H^c) = 1 - q^{m-1}P(GcHc)=1qm1
  • P(E∣GHc)=0P(E|GH^c) = 0P(EGHc)=0(因为前 mmm 次都失败,长度为 mmm 的失败游程已经出现)
  • P(E∣GcHc)=P(E∣H)P(E|G^cH^c) = P(E|H)P(EGcHc)=P(EH)(当第一次成功发生时,前面的失败已失效,相当于从成功开始)

代入公式 (4):
P(E∣Hc)=0⋅qm−1+P(E∣H)⋅(1−qm−1) P(E|H^c) = 0 \cdot q^{m-1} + P(E|H) \cdot (1 - q^{m-1}) P(EHc)=0qm1+P(EH)(1qm1)

P(E∣Hc)=(1−qm−1)P(E∣H)(5) P(E|H^c) = (1 - q^{m-1})P(E|H) \tag{5} P(EHc)=(1qm1)P(EH)(5)

将方程 (5) 代入方程 (3):
P(E∣H)=pn−1+(1−pn−1)(1−qm−1)P(E∣H) P(E|H) = p^{n-1} + (1 - p^{n-1})(1 - q^{m-1})P(E|H) P(EH)=pn1+(1pn1)(1qm1)P(EH)

移项整理:
P(E∣H)−(1−pn−1)(1−qm−1)P(E∣H)=pn−1 P(E|H) - (1 - p^{n-1})(1 - q^{m-1})P(E|H) = p^{n-1} P(EH)(1pn1)(1qm1)P(EH)=pn1

P(E∣H)[1−(1−pn−1)(1−qm−1)]=pn−1 P(E|H)[1 - (1 - p^{n-1})(1 - q^{m-1})] = p^{n-1} P(EH)[1(1pn1)(1qm1)]=pn1

计算分母:
1−(1−pn−1)(1−qm−1)=1−[1−pn−1−qm−1+pn−1qm−1]=pn−1+qm−1−pn−1qm−1 \begin{aligned} 1 - (1 - p^{n-1})(1 - q^{m-1}) &= 1 - [1 - p^{n-1} - q^{m-1} + p^{n-1}q^{m-1}] \\ &= p^{n-1} + q^{m-1} - p^{n-1}q^{m-1} \end{aligned} 1(1pn1)(1qm1)=1[1pn1qm1+pn1qm1]=pn1+qm1pn1qm1

因此:
P(E∣H)=pn−1pn−1+qm−1−pn−1qm−1(6) P(E|H) = \frac{p^{n-1}}{p^{n-1} + q^{m-1} - p^{n-1}q^{m-1}} \tag{6} P(EH)=pn1+qm1pn1qm1pn1(6)

将 (6) 代入 (5):
P(E∣Hc)=(1−qm−1)⋅pn−1pn−1+qm−1−pn−1qm−1(7) P(E|H^c) = (1 - q^{m-1}) \cdot \frac{p^{n-1}}{p^{n-1} + q^{m-1} - p^{n-1}q^{m-1}} \tag{7} P(EHc)=(1qm1)pn1+qm1pn1qm1pn1(7)

将 (6) 和 (7) 代入 (1):
P(E)=p⋅pn−1pn−1+qm−1−pn−1qm−1+q⋅(1−qm−1)⋅pn−1pn−1+qm−1−pn−1qm−1=pn+qpn−1(1−qm−1)pn−1+qm−1−pn−1qm−1 \begin{aligned} P(E) &= p \cdot \frac{p^{n-1}}{p^{n-1} + q^{m-1} - p^{n-1}q^{m-1}} + q \cdot (1 - q^{m-1}) \cdot \frac{p^{n-1}}{p^{n-1} + q^{m-1} - p^{n-1}q^{m-1}} \\ &= \frac{p^n + qp^{n-1}(1 - q^{m-1})}{p^{n-1} + q^{m-1} - p^{n-1}q^{m-1}} \end{aligned} P(E)=ppn1+qm1pn1qm1pn1+q(1qm1)pn1+qm1pn1qm1pn1=pn1+qm1pn1qm1pn+qpn1(1qm1)

简化分子:
pn+qpn−1(1−qm−1)=pn+qpn−1−qpn−1qm−1=pn+qpn−1−pn−1qm=pn−1(p+q−qm)=pn−1(1−qm)(因为 p+q=1) \begin{aligned} p^n + qp^{n-1}(1 - q^{m-1}) &= p^n + qp^{n-1} - qp^{n-1}q^{m-1} \\ &= p^n + qp^{n-1} - p^{n-1}q^m \\ &= p^{n-1}(p + q - q^m) \\ &= p^{n-1}(1 - q^m) \quad (\text{因为 } p + q = 1) \end{aligned} pn+qpn1(1qm1)=pn+qpn1qpn1qm1=pn+qpn1pn1qm=pn1(p+qqm)=pn1(1qm)(因为 p+q=1)

因此:
P(E)=pn−1(1−qm)pn−1+qm−1−pn−1qm−1 P(E) = \frac{p^{n-1}(1 - q^m)}{p^{n-1} + q^{m-1} - p^{n-1}q^{m-1}} P(E)=pn1+qm1pn1qm1pn1(1qm)

长度为 nnn 的成功游程先于长度为 mmm 的失败游程出现的概率为:
P(E)=pn−1(1−qm)pn−1+qm−1−pn−1qm−1 P(E) = \frac{p^{n-1}(1 - q^m)}{p^{n-1} + q^{m-1} - p^{n-1}q^{m-1}} P(E)=pn1+qm1pn1qm1pn1(1qm)

例 5d:在一次聚会上,n 个人摘下他们的帽子,然后把这些帽子混合在一起,每人再随机选择一顶帽子。如某个人选中了他自己的帽子,我们就说出现了一个配对。求:

  • (a) 没有配对的概率
  • (b) 恰有 k 个配对的概率

(a) 没有配对的概率

这是一个经典的错位排列(derangement)问题,即没有任何人拿到自己帽子的排列方式。

PnP_nPn 表示 n 个人没有配对的概率。我们以第一个人是否选中自己的帽子为条件:

  • MMM 表示"第一个人选中自己的帽子"这一事件
  • P(E)=P(E∣M)P(M)+P(E∣Mc)P(Mc)P(E) = P(E|M)P(M) + P(E|M^c)P(M^c)P(E)=P(EM)P(M)+P(EMc)P(Mc)

显然 P(E∣M)=0P(E|M) = 0P(EM)=0(如果第一个人选中自己的帽子,就不可能没有配对),P(M)=1/nP(M) = 1/nP(M)=1/nP(Mc)=(n−1)/nP(M^c) = (n-1)/nP(Mc)=(n1)/n,所以:

Pn=P(E∣Mc)⋅n−1nP_n = P(E|M^c) \cdot \frac{n-1}{n}Pn=P(EMc)nn1

现在考虑 P(E∣Mc)P(E|M^c)P(EMc),即在第一个人没有选中自己帽子的条件下,没有人选中自己帽子的概率。

假设第一个人选中了第 j 个人的帽子(j≠1j \neq 1j=1),有两种互不相容的情况:

  1. 第 j 个人选中了第一个人的帽子:概率为 1/(n−1)1/(n-1)1/(n1)

    • 剩下 n−2n-2n2 个人需要没有配对,概率为 Pn−2P_{n-2}Pn2
  2. 第 j 个人没有选中第一个人的帽子:概率为 (n−2)/(n−1)(n-2)/(n-1)(n2)/(n1)

    • 此时可以把第 j 个人看作"第一个人",问题转化为 n−1n-1n1 个人的没有配对问题,概率为 Pn−1P_{n-1}Pn1

因此:
P(E∣Mc)=1n−1⋅Pn−2+n−2n−1⋅Pn−1P(E|M^c) = \frac{1}{n-1} \cdot P_{n-2} + \frac{n-2}{n-1} \cdot P_{n-1}P(EMc)=n11Pn2+n1n2Pn1

代入 PnP_nPn 的公式:
Pn=[1n−1⋅Pn−2+n−2n−1⋅Pn−1]⋅n−1n=1n⋅Pn−2+n−2n⋅Pn−1P_n = \left[\frac{1}{n-1} \cdot P_{n-2} + \frac{n-2}{n-1} \cdot P_{n-1}\right] \cdot \frac{n-1}{n} = \frac{1}{n} \cdot P_{n-2} + \frac{n-2}{n} \cdot P_{n-1}Pn=[n11Pn2+n1n2Pn1]nn1=n1Pn2+nn2Pn1

整理得:
Pn−Pn−1=−1n(Pn−1−Pn−2)P_n - P_{n-1} = -\frac{1}{n}(P_{n-1} - P_{n-2})PnPn1=n1(Pn1Pn2)

已知边界条件:

  • P1=0P_1 = 0P1=0(只有 1 个人,必须选中自己的帽子)
  • P2=12P_2 = \frac{1}{2}P2=21(两个人,只有 1 种方式没有配对:互相交换帽子)

利用递推关系:
P3−P2=−13(P2−P1)=−13⋅12=−16  ⟹  P3=12−16=13P_3 - P_2 = -\frac{1}{3}(P_2 - P_1) = -\frac{1}{3} \cdot \frac{1}{2} = -\frac{1}{6} \implies P_3 = \frac{1}{2} - \frac{1}{6} = \frac{1}{3}P3P2=31(P2P1)=3121=61P3=2161=31

P4−P3=−14(P3−P2)=−14⋅(13−12)=124  ⟹  P4=13+124=38P_4 - P_3 = -\frac{1}{4}(P_3 - P_2) = -\frac{1}{4} \cdot \left(\frac{1}{3} - \frac{1}{2}\right) = \frac{1}{24} \implies P_4 = \frac{1}{3} + \frac{1}{24} = \frac{3}{8}P4P3=41(P3P2)=41(3121)=241P4=31+241=83

P5−P4=−15(P4−P3)=−15⋅(38−13)=−1120  ⟹  P5=38−1120=1130P_5 - P_4 = -\frac{1}{5}(P_4 - P_3) = -\frac{1}{5} \cdot \left(\frac{3}{8} - \frac{1}{3}\right) = -\frac{1}{120} \implies P_5 = \frac{3}{8} - \frac{1}{120} = \frac{11}{30}P5P4=51(P4P3)=51(8331)=1201P5=831201=3011

通过归纳,我们可以得到通式:
Pn=12!−13!+14!−⋯+(−1)nn!P_n = \frac{1}{2!} - \frac{1}{3!} + \frac{1}{4!} - \dots + \frac{(-1)^n}{n!}Pn=2!13!1+4!1+n!(1)n

[!NOTE]

也可用容斥恒等式 详见第二章 5m

(b) 恰有 k 个配对的概率

要计算恰好有 k 个配对的概率,我们可以:

  1. 选择哪 k 个人有配对:(nk)=n!k!(n−k)!\binom{n}{k} = \frac{n!}{k!(n-k)!}(kn)=k!(nk)!n! 种方式
  2. 这 k 个人必须选中自己的帽子:概率为 1
  3. 剩下的 n−kn-knk 个人必须没有配对:概率为 Pn−kP_{n-k}Pnk

因此,恰好有 k 个配对的概率为:
(nk)⋅1⋅Pn−k/n!=n!k!(n−k)!⋅Pn−k/n!=Pn−kk!\binom{n}{k} \cdot 1 \cdot P_{n-k} / n! = \frac{n!}{k!(n-k)!} \cdot P_{n-k} / n! = \frac{P_{n-k}}{k!}(kn)1Pnk/n!=k!(nk)!n!Pnk/n!=k!Pnk

其中 Pn−k=12!−13!+⋯+(−1)n−k(n−k)!P_{n-k} = \frac{1}{2!} - \frac{1}{3!} + \dots + \frac{(-1)^{n-k}}{(n-k)!}Pnk=2!13!1++(nk)!(1)nk

所以,恰好有 k 个配对的概率为:
Pn−kk!=12!−13!+⋯+(−1)n−k(n−k)!k!\frac{P_{n-k}}{k!} = \frac{\frac{1}{2!} - \frac{1}{3!} + \dots + \frac{(-1)^{n-k}}{(n-k)!}}{k!}k!Pnk=k!2!13!1++(nk)!(1)nk

例 5e:拉普拉斯继承准则。一个盒子中有 k+1k+1k+1 枚不均匀的硬币,抛掷第 iii 枚硬币时,其正面朝上的概率为 i/ki/ki/k (i=0,1,…,ki=0,1,\ldots,ki=0,1,,k)。从盒子中随机取出一枚硬币,并重复地抛掷。如果前 nnn 次抛掷结果都为正面朝上,那么第 n+1n+1n+1 次结果仍为正面朝上的概率是多少?

:令 CiC_iCi 表示开始取出的是第 iii 枚硬币,FnF_nFn 表示前 nnn 次结果都为正面朝上,HHH 表示第 n+1n+1n+1 次抛掷正面朝上。则所求概率为:
P(H∣Fn)=∑i=0k(i/k)n+1∑j=0k(j/k)n P(H | F_n) = \frac{\sum_{i=0}^{k} (i/k)^{n+1}}{\sum_{j=0}^{k} (j/k)^{n}} P(HFn)=j=0k(j/k)ni=0k(i/k)n+1

[!NOTE]

当k很大时,可以利用积分近似来计算这个表达式。

积分近似原理

考虑求和 ∑i=0k(i/k)n+1\sum_{i=0}^{k} (i/k)^{n+1}i=0k(i/k)n+1。当k很大时,这个求和可以近似为积分。具体来说,1k∑i=0k(i/k)n+1\frac{1}{k} \sum_{i=0}^{k} (i/k)^{n+1}k1i=0k(i/k)n+1 是函数 xn+1x^{n+1}xn+1 在区间 [0,1] 上的黎曼和(Riemann sum),其中将区间 [0,1] 分成k等份,每份长度为 1k\frac{1}{k}k1

当k趋于无穷大时,这个黎曼和收敛到积分 ∫01xn+1dx\int_{0}^{1} x^{n+1} dx01xn+1dx

积分计算

计算积分:
∫01xn+1dx=[xn+2n+2]01=1n+2\int_{0}^{1} x^{n+1} dx = \left[\frac{x^{n+2}}{n+2}\right]_{0}^{1} = \frac{1}{n+2}01xn+1dx=[n+2xn+2]01=n+21

类似地:
∫01xndx=[xn+1n+1]01=1n+1\int_{0}^{1} x^{n} dx = \left[\frac{x^{n+1}}{n+1}\right]_{0}^{1} = \frac{1}{n+1}01xndx=[n+1xn+1]01=n+11

近似推导

当k很大时:
1k∑i=0k(ik)n+1≈∫01xn+1dx=1n+2\frac{1}{k} \sum_{i=0}^{k} \left(\frac{i}{k}\right)^{n+1} \approx \int_{0}^{1} x^{n+1} dx = \frac{1}{n+2}k1i=0k(ki)n+101xn+1dx=n+21
1k∑j=0k(jk)n≈∫01xndx=1n+1\frac{1}{k} \sum_{j=0}^{k} \left(\frac{j}{k}\right)^{n} \approx \int_{0}^{1} x^{n} dx = \frac{1}{n+1}k1j=0k(kj)n01xndx=n+11

现在,回到 P(H∣Fn)P(H|F_n)P(HFn) 的表达式:
P(H∣Fn)=∑i=0k(i/k)n+1∑j=0k(j/k)n=k⋅1k∑i=0k(i/k)n+1k⋅1k∑j=0k(j/k)n≈k⋅1n+2k⋅1n+1=n+1n+2P(H|F_n) = \frac{\sum_{i=0}^{k} (i/k)^{n+1}}{\sum_{j=0}^{k} (j/k)^{n}} = \frac{k \cdot \frac{1}{k} \sum_{i=0}^{k} (i/k)^{n+1}}{k \cdot \frac{1}{k} \sum_{j=0}^{k} (j/k)^{n}} \approx \frac{k \cdot \frac{1}{n+2}}{k \cdot \frac{1}{n+1}} = \frac{n+1}{n+2}P(HFn)=j=0k(j/k)ni=0k(i/k)n+1=kk1j=0k(j/k)nkk1i=0k(i/k)n+1kn+11kn+21=n+2n+1

kkk 很大时,
P(H∣Fn)≈n+1n+2 P(H|F_n) \approx \frac{n+1}{n+2} P(HFn)n+2n+1

例 5f:序贯地补充信息。假设有一组互不相容且穷尽的假设 H1,H2,…,HnH_1, H_2, \ldots, H_nH1,H2,,Hn,其初始概率(先验概率)为 P(Hi)P(H_i)P(Hi)∑i=1nP(Hi)=1\sum_{i=1}^{n} P(H_i) = 1i=1nP(Hi)=1

当获得新证据 E1E_1E1 时,我们可以使用贝叶斯公式更新假设的概率:
P(Hi∣E1)=P(E1∣Hi)P(Hi)∑j=1nP(E1∣Hj)P(Hj)P(H_i | E_1) = \frac{P(E_1 | H_i) P(H_i)}{\sum_{j=1}^{n} P(E_1 | H_j) P(H_j)}P(HiE1)=j=1nP(E1Hj)P(Hj)P(E1Hi)P(Hi)

随后,当获得第二个证据 E2E_2E2 时,我们可以有两种方法更新概率:

方法1:直接使用两个证据

P(Hi∣E1E2)=P(E1E2∣Hi)P(Hi)∑j=1nP(E1E2∣Hj)P(Hj)P(H_i | E_1 E_2) = \frac{P(E_1 E_2 | H_i) P(H_i)}{\sum_{j=1}^{n} P(E_1 E_2 | H_j) P(H_j)}P(HiE1E2)=j=1nP(E1E2Hj)P(Hj)P(E1E2Hi)P(Hi)

方法2:序贯更新

  1. 先用 E1E_1E1 更新,得到 P(Hi∣E1)P(H_i | E_1)P(HiE1)
  2. P(Hi∣E1)P(H_i | E_1)P(HiE1) 视为新的先验概率
  3. 再用 E2E_2E2 更新,得到 P(Hi∣E1E2)P(H_i | E_1 E_2)P(HiE1E2)

关键条件:如果在给定 HiH_iHi 的条件下,E1E_1E1E2E_2E2 是条件独立的,即:
P(E1E2∣Hi)=P(E1∣Hi)P(E2∣Hi)P(E_1 E_2 | H_i) = P(E_1 | H_i) P(E_2 | H_i)P(E1E2Hi)=P(E1Hi)P(E2Hi)

那么,序贯更新方法是有效的,且:
P(Hi∣E1E2)=P(E2∣Hi)P(Hi∣E1)∑j=1nP(E2∣Hj)P(Hj∣E1)P(H_i | E_1 E_2) = \frac{P(E_2 | H_i) P(H_i | E_1)}{\sum_{j=1}^{n} P(E_2 | H_j) P(H_j | E_1)}P(HiE1E2)=j=1nP(E2Hj)P(HjE1)P(E2Hi)P(HiE1)

证明

从贝叶斯公式出发:
P(Hi∣E1E2)=P(E1E2∣Hi)P(Hi)P(E1E2)P(H_i | E_1 E_2) = \frac{P(E_1 E_2 | H_i) P(H_i)}{P(E_1 E_2)}P(HiE1E2)=P(E1E2)P(E1E2Hi)P(Hi)

利用条件独立性:
P(E1E2∣Hi)=P(E2∣Hi)P(E1∣Hi)P(E_1 E_2 | H_i) = P(E_2 | H_i) P(E_1 | H_i)P(E1E2Hi)=P(E2Hi)P(E1Hi)

代入:
P(Hi∣E1E2)=P(E2∣Hi)P(E1∣Hi)P(Hi)P(E1E2)P(H_i | E_1 E_2) = \frac{P(E_2 | H_i) P(E_1 | H_i) P(H_i)}{P(E_1 E_2)}P(HiE1E2)=P(E1E2)P(E2Hi)P(E1Hi)P(Hi)

注意到:
P(E1∣Hi)P(Hi)=P(Hi∣E1)P(E1)P(E_1 | H_i) P(H_i) = P(H_i | E_1) P(E_1)P(E1Hi)P(Hi)=P(HiE1)P(E1)

所以:
P(Hi∣E1E2)=P(E2∣Hi)P(Hi∣E1)P(E1)P(E1E2)=P(E2∣Hi)P(Hi∣E1)P(E2∣E1)P(H_i | E_1 E_2) = \frac{P(E_2 | H_i) P(H_i | E_1) P(E_1)}{P(E_1 E_2)} = \frac{P(E_2 | H_i) P(H_i | E_1)}{P(E_2 | E_1)}P(HiE1E2)=P(E1E2)P(E2Hi)P(HiE1)P(E1)=P(E2E1)P(E2Hi)P(HiE1)

其中 P(E2∣E1)=P(E1E2)P(E1)=∑j=1nP(E2∣Hj)P(Hj∣E1)P(E_2 | E_1) = \frac{P(E_1 E_2)}{P(E_1)} = \sum_{j=1}^{n} P(E_2 | H_j) P(H_j | E_1)P(E2E1)=P(E1)P(E1E2)=j=1nP(E2Hj)P(HjE1)

因此:
P(Hi∣E1E2)=P(E2∣Hi)P(Hi∣E1)∑j=1nP(E2∣Hj)P(Hj∣E1)P(H_i | E_1 E_2) = \frac{P(E_2 | H_i) P(H_i | E_1)}{\sum_{j=1}^{n} P(E_2 | H_j) P(H_j | E_1)}P(HiE1E2)=j=1nP(E2Hj)P(HjE1)P(E2Hi)P(HiE1)

小结

  • 条件概率定义为 P(E∣F)=P(EF)P(F)P(E|F) = \frac{P(EF)}{P(F)}P(EF)=P(F)P(EF)
  • 概率的乘法规则:P(E1E2⋯En)=P(E1)P(E2∣E1)⋯P(En∣E1⋯En−1)P(E_1E_2\cdots E_n) = P(E_1)P(E_2|E_1)\cdots P(E_n|E_1\cdots E_{n-1})P(E1E2En)=P(E1)P(E2E1)P(EnE1En1)
  • 全概率公式:P(E)=∑i=1nP(E∣Fi)P(Fi)P(E) = \sum_{i=1}^{n} P(E|F_i)P(F_i)P(E)=i=1nP(EFi)P(Fi)
  • 贝叶斯公式:P(Fj∣E)=P(E∣Fj)P(Fj)∑i=1nP(E∣Fi)P(Fi)P(F_j|E) = \frac{P(E|F_j)P(F_j)}{\sum_{i=1}^{n} P(E|F_i)P(F_i)}P(FjE)=i=1nP(EFi)P(Fi)P(EFj)P(Fj)
  • 事件 EEEFFF 独立当且仅当 P(EF)=P(E)P(F)P(EF) = P(E)P(F)P(EF)=P(E)P(F)
  • 对于给定事件 FFFP(E∣F)P(E|F)P(EF) 可以视为样本空间中事件 EEE 的概率函数
  • 事件 E1E_1E1E2E_2E2 关于 FFF 条件独立当且仅当 P(E1E2∣F)=P(E1∣F)P(E2∣F)P(E_1E_2|F) = P(E_1|F)P(E_2|F)P(E1E2F)=P(E1F)P(E2F)
http://www.xdnf.cn/news/1312165.html

相关文章:

  • Linux sar命令详细使用指南
  • Qt 动态属性(Dynamic Property)详解
  • Qt 关于QString和std::string数据截断的问题- 遇到\0或者0x00如何处理?
  • 【经典上穿突破】副图/选股指标,双均线交叉原理,对价格波动反应灵敏,适合捕捉短期启动点
  • [1Prompt1Story] 注意力机制增强 IPCA | 去噪神经网络 UNet | U型架构分步去噪
  • PowerShell 第11章:过滤和比较(上)
  • 云安全 - The Big IAM Challenge
  • 二分查找。。
  • 智能合约:区块链时代的“数字契约革命”
  • AutoDL使用学习
  • 【Java web】Servlet 详解
  • CUDA 编程笔记:CUDA延迟隐藏
  • [优选算法专题二滑动窗口——最大连续1的个数 III]
  • huggingface TRL中是怎么获取参考模型的输出的
  • Swift 实战:实现一个简化版的 Twitter(LeetCode 355)
  • 新手向:GitCode疑难问题诊疗
  • Java 10 新特性及具体应用
  • 嵌入式硬件篇---电感串并联
  • 2^{-53} 单位舍入误差、机器精度、舍入的最大相对误差界限
  • 实例分割-动手学计算机视觉13
  • docker安装mongodb及java连接实战
  • Effective C++ 条款45:运用成员函数模板接受所有兼容类型
  • Linux怎么查看服务器开放和启用的端口
  • 【原理】C# 字段、属性对比及其底层实现
  • illustrator插件大全 免费插件介绍 Ai设计插件集合 (3)
  • Python语言一键整理xhs评论 基于github的开源项目 MediaCrawler
  • Linux进程概念(四)环境地址变量
  • 同创物流学习记录2·电车
  • 链式二叉树的基本操作——遍历
  • 实时计算 记录