当前位置: 首页 > java >正文

​​P值在双侧检验中的计算方法

P值在双侧检验中的计算方法

明确问题

假设我们做A/B测试:
H0(原假设): A组和B组无差异(μA = μB,或 Δμ = 0)。
H1(备择假设): A组和B组有差异(μA ≠ μB,或 Δμ ≠ 0)→ 双侧检验。

计算步骤

步骤①:计算样本统计量(如t值或z值)

根据样本数据,计算两组均值差(Δx̄ = x̄A - x̄B)和标准误差(SE)。

检验统计量公式(以t检验为例):
在这里插入图片描述
其中:

  1. x ˉ A \bar{x}_A xˉA, x ˉ B \bar{x}_B xˉB :两组的样本均值
  2. s A s_A sA, s B s_B sB :两组的样本标准差
  3. n A n_A nA, n B n_B nB :两组的样本量

步骤②:确定观测统计量的绝对值

计算得到的t值可能是正或负(例如 t = 2.3 或 t = -2.3)。
双侧检验中,关注的是偏离H0的程度,与方向无关 → 取绝对值 t。

​​ 双侧检验(双尾检验)​​:只关心“有没有差异”,不关心方向(A比B大 ​​或​​ A比B小都算显著)。
​​单侧检验(单尾检验)​​:明确关心方向(​​只​​检验A比B大,或​​只​​检验A比B小)。

步骤③:查分布表,计算双侧P值

根据t分布,查找 t 对应的单侧概率(即P(T ≥ t))。

双侧P值 = 单侧概率 × 2 (因为要同时考虑 t ≥ t 和 t ≤ - t 的情况)。

具体案例

实验数据:

A组(新策略):x̄A = 5.2,sA = 1.3,nA = 100
B组(旧策略):x̄B = 4.8,sB = 1.1,nB = 100
Δx̄ = 5.2 - 4.8 = 0.4

计算过程:

标准误差(SE):
[  ]
t值:
在这里插入图片描述

查t分布表(df = nA + nB - 2 = 198):
P(T ≥ 2.35) ≈ 0.01(单侧概率),双侧P值 = 0.01 × 2 = 0.02

结论:

若显著性水平 α = 0.05,P值(0.02)< α → 拒绝H0,认为两组有显著差异。

为什么双侧P值要×2?

直观理解: 双侧检验的拒绝域在分布的两端。如果t=2.35,极端情况包括:

  1. 右侧:t ≥ 2.35(概率=0.01)
  2. 左侧:t ≤ -2.35(概率=0.01)

总极端概率 = 0.01 + 0.01 = 0.02。

图像示意(正态分布/t分布):
在这里插入图片描述
t* 是临界值(如t=1.96对应α=0.05)。

对比单侧检验

单侧检验(例如H1: μA > μB):
只计算 t ≥ 观测值(如t=2.35)的概率 → P值=0.01。
不需要×2,因为方向已限定。

关键点总结

P值本质: 在H0成立时,当前数据(或更极端)出现的概率。

双侧P值 = 单侧概率 × 2,因为要覆盖正负两个方向的极端情况。

判断规则:

P值 ≤ α → 拒绝H0(有显著差异)

P值 > α → 无法拒绝H0。

再举个极简例子:
抛硬币10次,假设公平(H0),出现8次正面。

  1. 单侧P值(H1: 偏向正面)= P(≥8正) ≈ 5.5%。
  2. 双侧P值 = P(≥8正 或 ≤2正) ≈ 5.5% × 2 = 11%。
    若α=5%,双侧P值(11%)> α → 无法拒绝H0(不能认定硬币不公平)。

补充:t值、z值是什么?

t值和z值都是“标准化后的差异值”,用来衡量“观测到的差异”是**“真实效应”还是“随机波动”**。

  1. z值:用总体标准差(σ已知时)标准化。
  2. t值:用样本标准差(σ未知时)标准化,更常用。

t值和z值的本质

它们都是检验统计量,计算公式类似:
在这里插入图片描述

  1. 分子:实际观测到的差异(如A组均值 - B组均值)。
  2. 分母:差异的波动范围(标准误差,反映随机误差大小)。
  3. 结果:值越大,说明差异越不可能由随机误差导致

z值(Z-score)

适用场景:
总体标准差σ已知(现实中很少见,常见于质量控制或标准化测试)。

样本量极大时(如n>30),可用样本标准差近似σ,此时t≈z。

计算公式:
[ z = x ˉ − μ 0 σ / n ] [ z= \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} ] [z=σ/n xˉμ0]

x ˉ \bar{x} xˉ:样本均值

μ 0 \mu_0 μ0:H0假设的总体均值(如μ0=0)

σ \sigma σ:总体标准差

n n n:样本量

例子:
工厂生产零件,已知历史标准差 σ \sigma σ=2。抽样100个零件,均值 x ˉ \bar{x} xˉ=10.5,检验是否与标准值 μ 0 \mu_0 μ0=10有差异。
[ z = 10.5 − 10 2 / 100 = 2.5 ] [ z= \frac{10.5 - 10}{2 / \sqrt{100}} = 2.5 ] [z=2/100 10.510=2.5]

t值(T-score)

适用场景:
总体标准差σ未知(99%的现实场景),用样本标准差s代替σ。

样本量较小时(如n<30),必须用t值(因小样本误差更大)。

计算公式:
[ t = x ˉ − μ 0 s / n ] [ t= \frac{\bar{x} - \mu_0}{s / \sqrt{n}} ] [t=s/n xˉμ0]
s s s:样本标准差
其他符号同z值。

例子:
A/B测试中,A组(n=20)均值 x ˉ A \bar{x}_A xˉA=5.2,标准差 s A s_A sA=1.3;B组(n=20)均值 x ˉ B \bar{x}_B xˉB=4.8, s B s_B sB=1.1。检验两组差异是否显著(H0: μ A \mu_A μA= μ B \mu_B μB)。
[ t = 5.2 − 4.8 1.3 2 20 + 1.1 2 20 = 0.4 0.37 ≈ 1.08 ] [ t= \frac{5.2 - 4.8}{\sqrt{\frac{1.3^2}{20} + \frac{1.1^2}{20}}} = \frac{0.4}{0.37} \approx 1.08 ] [t=201.32+201.12 5.24.8=0.370.41.08]

关键区别

在这里插入图片描述

为什么t分布更“胖”?

t分布比正态分布尾部更厚(因小样本误差更大,需更保守)。

样本量↑ → t分布趋近正态分布(如df>30时,t≈z)。

如何查表找P值?

  • z值:直接查标准正态分布表。
    例如z=2.5 → 单侧P≈0.0062,双侧P=0.0124。
  • t值:根据自由度(df)查t分布表。
    例如t=2.0,df=19 → 单侧P≈0.03,双侧P=0.06。

一句话总结

  • z值:已知σ或大样本时,用正态分布算P值
  • t值:σ未知且小样本时,用更保守的t分布算P值

核心逻辑:t/z值越大 → P值越小 → 越能拒绝H0!

自己的理解

算出来的两组数据的t值/z值/卡方值,代表了两组数据的差异,根据这个差异的概率分布图,如果这个差异很大,那么他在概率分布图中出现的概率很小。

AI总结为以下逻辑链

1. 计算统计量(t值/z值/卡方值)

这些值本质上是“标准化后的差异”,量化了A组和B组的差异大小。

例如:

t值 = (观测差异 - 预期差异) / 标准误差

z值类似,但用于已知总体标准差时。

卡方值衡量的是观测频数与期望频数的偏离程度。

2. 差异越大 → 统计量绝对值越大

如果两组数据差异越大,t/z/卡方值的绝对值也会越大。

例如:

  • A组比B组均值高很多 → t值很大(如t=5.0)。

  • A组和B组分布完全不同 → 卡方值很大(如χ²=20)。

3.统计量对应概率分布图

每个统计量都有其理论分布(t分布/z分布/卡方分布),描述了在H0成立(无真实差异)时,随机抽样产生不同统计量的概率。

统计量绝对值越大 → 在分布中越靠尾部 → 出现的概率越小。

例如:

  • t=2.0在t分布中的概率 > t=5.0的概率。

  • χ²=10在卡方分布中的概率 > χ²=30的概率。

4.P值:这个差异(或更大差异)出现的概率

P值 = 在当前统计量(或更极端值)在H0成立时的概率。

P值越小 → 差异越不可能由随机误差导致 → 越可能真实存在。

例如:

  • 若t=5.0对应的P=0.0001 → 只有0.01%的概率是随机波动 → 拒绝H0。

  • 若t=1.5对应的P=0.13 → 13%的概率是随机波动 → 无法拒绝H0。

举个具体例子(t检验)

场景:A组(新策略)和B组(旧策略)的均值比较。
观测差异:A组均值比B组高2个单位。

  • 计算t值:假设t=3.0(差异经过标准误差标准化后的大小)。

  • 查t分布:自由度为50时,P(T ≥ 3.0) ≈ 0.002(单侧)。

  • 双侧P值=0.004(因为可能A比B高或低)。

结论:

  • P=0.004 < 0.05 → 拒绝H0。

  • 差异显著,新策略很可能真的有效!

为什么“差异大 → 概率小”?

统计量的分布假设H0为真(即两组本应无差异)。

如果观测到的统计量(如t=5.0)在“无差异”的假设下出现的概率极低(P=0.0001),说明:

  • 要么发生了极小概率事件(运气极差),

  • 要么H0本身是错的(两组确实有差异)。

统计学的选择:我们更倾向于认为H0是错的,因为小概率事件不太可能发生。

卡方检验的类比

场景:检验广告点击率是否依赖用户性别(独立性检验)。
卡方值:衡量观测频数与期望频数的偏离程度。

例如χ²=15(偏离很大)。

查卡方分布:自由度为2时,P(χ² ≥ 15) ≈ 0.0005。

结论:

P=0.0005 < 0.05 → 拒绝H0。

点击率和性别显著相关!

总结

统计量(t/z/卡方):量化差异大小。

概率分布:告诉你在“无差异”假设下,这个差异(或更大)多容易出现

P值小 → 差异不太可能是随机的 → 认为差异真实存在

http://www.xdnf.cn/news/13528.html

相关文章:

  • 企业常见流量异常有哪些?
  • Cambridge Pixel为警用反无人机系统(C-UAS)提供软件支持
  • Vue2数组响应式问题:Object.defineProperty不能监听数组吗
  • ES Modules 与 CommonJS 的核心区别详解
  • python的时间管理库whenever的使用
  • Office2019下载安装教程(2025最新永久方法)(附安装包)
  • 【Vue】组件及组件化, 组件生命周期
  • 【AI大模型入门指南】概念与专有名词详解 (二)
  • CSP-J 2020 入门级 第一轮 阅读程序(1)
  • 【Zephyr 系列 19】打造 BLE 模块完整 SDK:AT 命令系统 + 状态机 + NVS + OTA 一体化构建
  • 华为云Flexus+DeepSeek征文 | 基于Dify构建多语言文件翻译工作流
  • NIFI在Linux系统中的系统配置最佳实践(性能调优)
  • UE5 读取配置文件
  • 【笔记】代码开发中常用环境配置与好用工具
  • Android12 开机后桌面加载框的适配
  • 拼音分词器的配置
  • kubernetes--通俗理解Sidecar容器
  • WinHex 20.8-SR1 安装教程详细步骤+下载
  • 【AI大模型入门指南】概念与专有名词详解 (一)
  • 【算法篇】逐步理解动态规划模型6(回文串问题)
  • RabbitMQ可靠和延迟队列
  • 2025下半年软考系统分析师备考攻略:6个月通关计划与高频考点解析
  • CBAM认证概述,CBAM认证的核心要素,CBAM认证的未来发展
  • 力扣HOT100之堆:295. 数据流的中位数
  • 分类数据集 - 植物分类数据集下载
  • 【C++】浅谈C++多态
  • vue3 + ant 实现 tree默认展开,筛选对应数据打开,简单~直接cv
  • Linux 引导过程与服务控制
  • TBvision 静态测试以及生成报告教程
  • GlusterFS 分布式文件系统