二项分布习题集 · 题目篇
二项分布习题集 · 题目篇
共 18 题,覆盖二项分布的定义、性质、参数估计、区间估计、假设检验、
极限近似以及工程应用与编程仿真。完成后请移步《答案与解析篇》。
1. 基础概念(4 题)
1.1 定义
写出二项分布 B i n ( n , p ) \mathrm{Bin}(n,p) Bin(n,p) 的概率质量函数(PMF),说明 n , p n,p n,p 的含义。
1.2 伯努利关系
用一句话说明二项分布与伯努利分布的关系,并给出数学表达式。
1.3 期望方差
由 PMF 推导 B i n ( n , p ) \mathrm{Bin}(n,p) Bin(n,p) 的期望与方差。
1.4 累积分布函数
写出二项分布的 CDF 定义式,并说明为何一般需借助不完全 Beta 函数或软件库计算。
2. 理论推导(5 题)
2.1 矩生成函数
推导二项分布的矩生成函数 (MGF),并写出前两阶矩。
2.2 切比雪夫界
利用切比雪夫不等式给出
[
P!\Bigl(|X-np|>\varepsilon n\Bigr)
]
的上界( X ∼ B i n ( n , p ) X\sim\mathrm{Bin}(n,p) X∼Bin(n,p))。
2.3 泊松极限定理
在 n → ∞ , p → 0 , λ = n p n\to\infty,\,p\to0,\,\lambda=np n→∞,p→0,λ=np 固定下,证明
[
\mathrm{Bin}(n,p)\xrightarrow{d}\text{Poisson}(\lambda).
]
2.4 正态近似
写出 De Moivre–Laplace 近似(含连续性校正),并说明适用条件。
2.5 指数族
证明二项分布属于指数分布族,并给出自然参数与充分统计量。
3. 参数估计与区间(4 题)
3.1 极大似然
给定样本 k k k 次成功、 n n n 次试验,求 p p p 的极大似然估计 p ^ \hat p p^。
3.2 Wald 区间
写出 p p p 的 ( 1 − α ) (1-\alpha) (1−α) Wald 置信区间公式,并指出该区间在什么场景下效果较差。
3.3 Wilson 区间
推导 Wilson 区间并说明其改进点。
3.4 Beta–Binomial 后验
设先验 p ∼ B e t a ( α , β ) p\sim\mathrm{Beta}(\alpha,\beta) p∼Beta(α,β),观测 k ∣ n k|n k∣n。写出后验分布并给出后验均值。
4. 假设检验与功效分析(3 题)
4.1 单比例检验
观测 n = 100 n=100 n=100, k = 38 k=38 k=38。 检验 H 0 : p = 0.4 H_0:p=0.4 H0:p=0.4(双侧, α = 0.05 \alpha=0.05 α=0.05)的 z 统计量表达式。
4.2 双比例检验
样本 A: n 1 = 120 , k 1 = 70 n_1=120,k_1=70 n1=120,k1=70;样本 B: n 2 = 90 , k 2 = 40 n_2=90,k_2=40 n2=90,k2=40。
写出比较 p 1 − p 2 p_1-p_2 p1−p2 是否为 0 的标准 z 检验统计量。
4.3 样本量估算
若要检测 p p p 是否大于 0.5,最小可检偏差 Δ = 0.05 \Delta=0.05 Δ=0.05,显著性 0.05、功效 0.9,求所需 n n n(正态近似即可)。
5. 应用与编程(2 题)
5.1 A/B Test 模拟
描述如何用 Python 模拟 10,000 轮 A/B Test(各 500 次试验,真实 p A = 0.42 , p B = 0.45 p_A=0.42,p_B=0.45 pA=0.42,pB=0.45),
估计显著检出率(假阳率 5%)。
5.2 Monte-Carlo 验证正态近似
编写思路:对于 n = { 10 , 30 , 100 } n=\{10,30,100\} n={10,30,100},随机生成 1 0 4 10^4 104 个 B i n ( n , 0.3 ) \mathrm{Bin}(n,0.3) Bin(n,0.3) 样本,
绘制标准化后的直方图并叠加 N ( 0 , 1 ) N(0,1) N(0,1) 密度曲线,比对近似优劣。
全部做完后,再阅读《答案与解析篇》!