当前位置: 首页 > news >正文

中级统计师-统计学基础知识-第三章 参数估计

统计学基础知识 第三章 参数估计


第一节 统计量与抽样分布

1.1 总体参数与统计量

  • 总体参数:描述总体特征的未知量(如均值 μ \mu μ、方差 σ 2 \sigma^2 σ2、比例 π \pi π)。
  • 统计量:由样本数据计算的量(如样本均值 x ˉ \bar{x} xˉ、样本方差 s 2 s^2 s2、样本比例 p p p),是随机变量。

1.2 点估计的评价标准

标准定义数学表达
无偏性估计量的期望等于总体参数 E ( θ ^ ) = θ E(\hat{\theta}) = \theta E(θ^)=θ
例: E ( x ˉ ) = μ E(\bar{x}) = \mu E(xˉ)=μ E ( s 2 ) = σ 2 E(s^2) = \sigma^2 E(s2)=σ2
有效性方差更小的无偏估计量更有效 Var ( θ ^ 1 ) < Var ( θ ^ 2 ) \text{Var}(\hat{\theta}_1) < \text{Var}(\hat{\theta}_2) Var(θ^1)<Var(θ^2)
一致性样本量增大时,估计量趋近于总体参数

lim ⁡ n → ∞ P ( ∣ θ ^ − θ ∣ < ϵ ) = 1 \lim_{n \to \infty} P\left( |\hat{\theta} - \theta| < \epsilon \right) = 1 limnP(θ^θ<ϵ)=1

1.3 样本均值的抽样分布

  • 重复抽样:样本均值 x ˉ \bar{x} xˉ 的方差为:
    σ x ˉ 2 = σ 2 n \sigma_{\bar{x}}^2 = \frac{\sigma^2}{n} σxˉ2=nσ2
  • 不重复抽样:方差修正为:
    σ x ˉ 2 = σ 2 n ⋅ N − n N − 1 \sigma_{\bar{x}}^2 = \frac{\sigma^2}{n} \cdot \frac{N-n}{N-1} σxˉ2=nσ2N1Nn
  • 中心极限定理:当 n ≥ 30 n \geq 30 n30 时,无论总体分布如何:
    x ˉ ∼ N ( μ , σ 2 n ) \bar{x} \sim N\left( \mu, \frac{\sigma^2}{n} \right) xˉN(μ,nσ2)
  • 正态总体:若总体服从 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),则:
    x ˉ ∼ N ( μ , σ 2 n ) \bar{x} \sim N\left( \mu, \frac{\sigma^2}{n} \right) xˉN(μ,nσ2)

1.4 样本比例的抽样分布

  • 总体比例 π \pi π:具有某属性的单位占比。
  • 样本比例 p p p:当 n p ≥ 5 np \geq 5 np5 n ( 1 − p ) ≥ 5 n(1-p) \geq 5 n(1p)5 时:
    p ∼ N ( π , π ( 1 − π ) n ) p \sim N\left( \pi, \frac{\pi(1-\pi)}{n} \right) pN(π,nπ(1π))
  • 不重复抽样:方差修正为:
    σ p 2 = π ( 1 − π ) n ⋅ N − n N − 1 \sigma_p^2 = \frac{\pi(1-\pi)}{n} \cdot \frac{N-n}{N-1} σp2=nπ(1π)N1Nn

第二节 区间估计

2.1 基本原理

  • 置信区间:由样本统计量加减估计误差得到,置信水平 1 − α 1-\alpha 1α 表示区间包含总体参数的概率。
  • 公式通用形式
    ( 统计量 ± 分位数值 × 标准误差 ) \left( \text{统计量} \pm \text{分位数值} \times \text{标准误差} \right) (统计量±分位数值×标准误差)

2.2 单个总体参数的区间估计

(一)均值的区间估计
条件公式
大样本( n ≥ 30 n \geq 30 n30 σ \sigma σ 已知) x ˉ ± z α / 2 ⋅ σ n \bar{x} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} xˉ±zα/2n σ
大样本( σ \sigma σ 未知) x ˉ ± z α / 2 ⋅ s n \bar{x} \pm z_{\alpha/2} \cdot \frac{s}{\sqrt{n}} xˉ±zα/2n s
小样本( σ \sigma σ 未知,正态总体) x ˉ ± t α / 2 ( n − 1 ) ⋅ s n \bar{x} \pm t_{\alpha/2}(n-1) \cdot \frac{s}{\sqrt{n}} xˉ±tα/2(n1)n s
(二)比例的区间估计

p ± z α / 2 ⋅ p ( 1 − p ) n ( 需满足  n p ≥ 5 , n ( 1 − p ) ≥ 5 ) p \pm z_{\alpha/2} \cdot \sqrt{\frac{p(1-p)}{n}} \quad (\text{需满足 } np \geq 5, n(1-p) \geq 5) p±zα/2np(1p) (需满足 np5,n(1p)5)

2.3 两个总体参数的区间估计

(一)均值之差(独立样本)
  • 大样本
    ( x ˉ 1 − x ˉ 2 ) ± z α / 2 ⋅ s 1 2 n 1 + s 2 2 n 2 (\bar{x}_1 - \bar{x}_2) \pm z_{\alpha/2} \cdot \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}} (xˉ1xˉ2)±zα/2n1s12+n2s22
  • 小样本(方差齐性)
    ( x ˉ 1 − x ˉ 2 ) ± t α / 2 ( n 1 + n 2 − 2 ) ⋅ s p 1 n 1 + 1 n 2 (\bar{x}_1 - \bar{x}_2) \pm t_{\alpha/2}(n_1 + n_2 - 2) \cdot s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}} (xˉ1xˉ2)±tα/2(n1+n22)spn11+n21
    其中:
    s p 2 = ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) s 2 2 n 1 + n 2 − 2 s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} sp2=n1+n22(n11)s12+(n21)s22
(二)比例之差

( p 1 − p 2 ) ± z α / 2 ⋅ p 1 ( 1 − p 1 ) n 1 + p 2 ( 1 − p 2 ) n 2 (p_1 - p_2) \pm z_{\alpha/2} \cdot \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}} (p1p2)±zα/2n1p1(1p1)+n2p2(1p2)


第三节 样本量的确定

3.1 影响因素

因素影响
总体标准差 σ \sigma σ σ ↑ ⇒ n ↑ \sigma \uparrow \Rightarrow n \uparrow σ↑⇒n
最大允许误差 E E E E ↑ ⇒ n ↓ E \uparrow \Rightarrow n \downarrow E↑⇒n
置信水平 1 − α 1-\alpha 1α 1 − α ↑ ⇒ n ↑ 1-\alpha \uparrow \Rightarrow n \uparrow 1α↑⇒n
抽样方式不重复抽样所需样本量更小

3.2 计算公式

(一)估计总体均值
  • 重复抽样
    n = ( z α / 2 ) 2 σ 2 E 2 n = \frac{(z_{\alpha/2})^2 \sigma^2}{E^2} n=E2(zα/2)2σ2
  • 不重复抽样
    n ∗ = n 1 + n N n^* = \frac{n}{1 + \frac{n}{N}} n=1+Nnn
(二)估计总体比例
  • 重复抽样
    n = ( z α / 2 ) 2 π ( 1 − π ) E 2 ( π 未知时取  π = 0.5 ) n = \frac{(z_{\alpha/2})^2 \pi(1-\pi)}{E^2} \quad (\pi \text{ 未知时取 } \pi = 0.5) n=E2(zα/2)2π(1π)(π 未知时取 π=0.5)

经典例题解析

例题1:样本量计算

  • 题目:估计居民旅游费用( σ = 1000 \sigma = 1000 σ=1000 E = 100 E = 100 E=100,置信水平 95%),求样本量。
  • 解析
    n = ( 1.96 ) 2 ⋅ 100 0 2 10 0 2 ≈ 385 n = \frac{(1.96)^2 \cdot 1000^2}{100^2} \approx 385 n=1002(1.96)210002385

总结

  1. 区间估计核心:用样本统计量构建包含总体参数的区间,置信水平反映区间可靠性。
  2. 样本量权衡:精度(误差 E E E)与成本(样本量 n n n)需平衡。
  3. 分布选择:大样本用正态分布,小样本用 t t t 分布,比例问题用二项近似正态。
http://www.xdnf.cn/news/518941.html

相关文章:

  • 【Linux】命令行参数和环境变量
  • 【PyQt5实战】五大对话框控件详解:从文件选择到消息弹窗
  • 【typenum】 11 私有模块(private.rs)
  • 【Redis实战篇】Redis消息队列
  • 10.9 LangChain LCEL革命:43%性能提升+声明式语法,AI开发效率飙升实战指南
  • 深入理解递归算法:Go语言实现指南
  • C44-练习
  • 全基因组关联研究揭示了脑淋巴活动的机制
  • Rstudio换皮:自定义彩虹括号与缩进线
  • Python Requests库完全指南:从入门到精通
  • 《C语言中的传值调用与传址调用》
  • 多头自注意力机制—Transformer模型的并行特征捕获引擎
  • 如何畅通需求收集渠道,获取用户反馈?
  • c++多线程debug
  • 【android bluetooth 协议分析 01】【HCI 层介绍 6】【WriteLeHostSupport命令介绍】
  • 2.1.2
  • WaterStamp —— 一个实用的网页水印生成器开发记
  • 系统启动时开启选择内核菜单
  • ctf 基础
  • tauri2项目动态添加 Sidecar可行性方案(运行时配置)
  • 机器学习-人与机器生数据的区分模型测试 - 模型融合与检验
  • 关于机器学习的实际案例
  • C++学习:六个月从基础到就业——C++20:概念(Concepts)
  • ZZW-OCCT
  • OpenAI深夜发布Codex:AI编程里程碑式突破
  • 一:操作系统之操作系统结构
  • VS Code 开启mcp控制本地的redis
  • React 19中如何向Vue那样自定义状态和方法暴露给父组件。
  • 【方法论】金字塔内部的结构
  • 一文讲清 AWS IAM涉及的核心概念!