P值在双侧检验中的计算方法
P值在双侧检验中的计算方法
明确问题
假设我们做A/B测试:
H0(原假设): A组和B组无差异(μA = μB,或 Δμ = 0)。
H1(备择假设): A组和B组有差异(μA ≠ μB,或 Δμ ≠ 0)→ 双侧检验。
计算步骤
步骤①:计算样本统计量(如t值或z值)
根据样本数据,计算两组均值差(Δx̄ = x̄A - x̄B)和标准误差(SE)。
检验统计量公式(以t检验为例):
其中:
- x ˉ A \bar{x}_A xˉA, x ˉ B \bar{x}_B xˉB :两组的样本均值
- s A s_A sA, s B s_B sB :两组的样本标准差
- n A n_A nA, n B n_B nB :两组的样本量
步骤②:确定观测统计量的绝对值
计算得到的t值可能是正或负(例如 t = 2.3 或 t = -2.3)。
双侧检验中,关注的是偏离H0的程度,与方向无关 → 取绝对值 t。
双侧检验(双尾检验):只关心“有没有差异”,不关心方向(A比B大 或 A比B小都算显著)。
单侧检验(单尾检验):明确关心方向(只检验A比B大,或只检验A比B小)。
步骤③:查分布表,计算双侧P值
根据t分布,查找 t 对应的单侧概率
(即P(T ≥ t)
)。
双侧P值 = 单侧概率 × 2 (因为要同时考虑 t ≥ t 和 t ≤ - t 的情况)。
具体案例
实验数据:
A组(新策略):x̄A = 5.2,sA = 1.3,nA = 100
B组(旧策略):x̄B = 4.8,sB = 1.1,nB = 100
Δx̄ = 5.2 - 4.8 = 0.4
计算过程:
标准误差(SE):
t值:
查t分布表(df = nA + nB - 2 = 198
):
P(T ≥ 2.35) ≈ 0.01(单侧概率)
,双侧P值 = 0.01 × 2 = 0.02
结论:
若显著性水平 α = 0.05,P值(0.02)< α → 拒绝H0,认为两组有显著差异。
为什么双侧P值要×2?
直观理解: 双侧检验的拒绝域在分布的两端。如果t=2.35,极端情况包括:
- 右侧:t ≥ 2.35(概率=0.01)
- 左侧:t ≤ -2.35(概率=0.01)
总极端概率 = 0.01 + 0.01 = 0.02。
图像示意(正态分布/t分布):
t* 是临界值(如t=1.96对应α=0.05)。
对比单侧检验
单侧检验(例如H1: μA > μB):
只计算 t ≥ 观测值(如t=2.35)的概率 → P值=0.01。
不需要×2,因为方向已限定。
关键点总结
P值本质: 在H0成立时,当前数据(或更极端)出现的概率。
双侧P值 = 单侧概率 × 2,因为要覆盖正负两个方向的极端情况。
判断规则:
P值 ≤ α → 拒绝H0(有显著差异)
P值 > α → 无法拒绝H0。
再举个极简例子:
抛硬币10次,假设公平(H0),出现8次正面。
- 单侧P值(H1: 偏向正面)= P(≥8正) ≈ 5.5%。
- 双侧P值 = P(≥8正 或 ≤2正) ≈ 5.5% × 2 = 11%。
若α=5%,双侧P值(11%)> α → 无法拒绝H0(不能认定硬币不公平)。
补充:t值、z值是什么?
t值和z值都是“标准化后的差异值
”,用来衡量“观测到的差异”是**“真实效应”还是“随机波动”**。
- z值:用总体标准差(σ已知时)标准化。
- t值:用样本标准差(
σ未知
时)标准化,更常用。
t值和z值的本质
它们都是检验统计量,计算公式类似:
- 分子:实际观测到的差异(如A组均值 - B组均值)。
- 分母:差异的波动范围(标准误差,反映随机误差大小)。
- 结果:值越大,说明差异越不可能由随机误差导致。
z值(Z-score)
适用场景:
总体标准差σ已知(现实中很少见,常见于质量控制或标准化测试)。
样本量极大时(如n>30),可用样本标准差近似σ,此时t≈z。
计算公式:
[ z = x ˉ − μ 0 σ / n ] [ z= \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} ] [z=σ/nxˉ−μ0]
x ˉ \bar{x} xˉ:样本均值
μ 0 \mu_0 μ0:H0假设的总体均值(如μ0=0)
σ \sigma σ:总体标准差
n n n:样本量
例子:
工厂生产零件,已知历史标准差 σ \sigma σ=2。抽样100个零件,均值 x ˉ \bar{x} xˉ=10.5,检验是否与标准值 μ 0 \mu_0 μ0=10有差异。
[ z = 10.5 − 10 2 / 100 = 2.5 ] [ z= \frac{10.5 - 10}{2 / \sqrt{100}} = 2.5 ] [z=2/10010.5−10=2.5]
t值(T-score)
适用场景:
总体标准差σ未知
(99%的现实场景),用样本标准差s代替σ。
样本量较小时(如n<30),必须用t值(因小样本误差更大)。
计算公式:
[ t = x ˉ − μ 0 s / n ] [ t= \frac{\bar{x} - \mu_0}{s / \sqrt{n}} ] [t=s/nxˉ−μ0]
s s s:样本标准差
其他符号同z值。
例子:
A/B测试中,A组(n=20)均值 x ˉ A \bar{x}_A xˉA=5.2,标准差 s A s_A sA=1.3;B组(n=20)均值 x ˉ B \bar{x}_B xˉB=4.8, s B s_B sB=1.1。检验两组差异是否显著(H0: μ A \mu_A μA= μ B \mu_B μB)。
[ t = 5.2 − 4.8 1.3 2 20 + 1.1 2 20 = 0.4 0.37 ≈ 1.08 ] [ t= \frac{5.2 - 4.8}{\sqrt{\frac{1.3^2}{20} + \frac{1.1^2}{20}}} = \frac{0.4}{0.37} \approx 1.08 ] [t=201.32+201.125.2−4.8=0.370.4≈1.08]
关键区别
为什么t分布更“胖”?
t分布比正态分布尾部更厚(因小样本误差更大,需更保守)。
样本量↑ → t分布趋近正态分布(如df>30时,t≈z)。
如何查表找P值?
- z值:直接查标准正态分布表。
例如z=2.5 → 单侧P≈0.0062,双侧P=0.0124。 - t值:根据自由度(df)查t分布表。
例如t=2.0,df=19 → 单侧P≈0.03,双侧P=0.06。
一句话总结
- z值:已知σ或大样本时,用正态分布算P值
- t值:σ未知且小样本时,用更保守的t分布算P值
核心逻辑:t/z值越大 → P值越小 → 越能拒绝H0!
自己的理解
算出来的两组数据的t值/z值/卡方值,代表了两组数据的差异,根据这个差异的概率分布图,如果这个差异很大,那么他在概率分布图中出现的概率很小。
AI总结为以下逻辑链
1. 计算统计量(t值/z值/卡方值)
这些值本质上是“标准化后的差异”,量化了A组和B组的差异大小。
例如:
t值 = (观测差异 - 预期差异) / 标准误差
z值类似,但用于已知总体标准差时。
卡方值衡量的是观测频数与期望频数的偏离程度。
2. 差异越大 → 统计量绝对值越大
如果两组数据差异越大,t/z/卡方值的绝对值也会越大。
例如:
-
A组比B组均值高很多 → t值很大(如t=5.0)。
-
A组和B组分布完全不同 → 卡方值很大(如χ²=20)。
3.统计量对应概率分布图
每个统计量都有其理论分布(t分布/z分布/卡方分布),描述了在H0成立(无真实差异)时,随机抽样产生不同统计量的概率。
统计量绝对值越大 → 在分布中越靠尾部 → 出现的概率越小。
例如:
-
t=2.0在t分布中的概率 > t=5.0的概率。
-
χ²=10在卡方分布中的概率 > χ²=30的概率。
4.P值:这个差异(或更大差异)出现的概率
P值 = 在当前统计量(或更极端值)在H0成立时的概率。
P值越小 → 差异越不可能由随机误差导致 → 越可能真实存在。
例如:
-
若t=5.0对应的P=0.0001 → 只有0.01%的概率是随机波动 → 拒绝H0。
-
若t=1.5对应的P=0.13 → 13%的概率是随机波动 → 无法拒绝H0。
举个具体例子(t检验)
场景:A组(新策略)和B组(旧策略)的均值比较。
观测差异:A组均值比B组高2个单位。
-
计算t值:假设t=3.0(差异经过标准误差标准化后的大小)。
-
查t分布:自由度为50时,P(T ≥ 3.0) ≈ 0.002(单侧)。
-
双侧P值=0.004(因为可能A比B高或低)。
结论:
-
P=0.004 < 0.05 → 拒绝H0。
-
差异显著,新策略很可能真的有效!
为什么“差异大 → 概率小”?
统计量的分布假设H0为真(即两组本应无差异)。
如果观测到的统计量(如t=5.0)在“无差异”的假设下出现的概率极低(P=0.0001),说明:
-
要么发生了极小概率事件(运气极差),
-
要么H0本身是错的(两组确实有差异)。
统计学的选择:我们更倾向于认为H0是错的,因为小概率事件不太可能发生。
卡方检验的类比
场景:检验广告点击率是否依赖用户性别(独立性检验)。
卡方值:衡量观测频数与期望频数的偏离程度。
例如χ²=15(偏离很大)。
查卡方分布:自由度为2时,P(χ² ≥ 15) ≈ 0.0005。
结论:
P=0.0005 < 0.05 → 拒绝H0。
点击率和性别显著相关!
总结
统计量(t/z/卡方):量化差异大小。
概率分布:告诉你在“无差异”假设下,这个差异(或更大)多容易出现
。
P值小 → 差异不太可能是随机的 → 认为差异真实存在。