中级统计师-统计学基础知识-第五章 相关分析
第一节 相关关系
1. 函数关系 vs 相关关系
-
函数关系
- 定义:变量间存在严格确定性的对应关系(如 y = f ( x ) y = f(x) y=f(x))
- 例子:本金 x x x 与利息收入 y = x + 0.027 x y = x + 0.027x y=x+0.027x
- 特点:一一对应,变动完全由自变量决定
-
相关关系
- 定义:变量间存在非确定性的依存关系(如身高与体重)
- 特点:受多种因素影响,无法用单一函数描述
- 例子:
- 父母收入与子女收入
- 广告费与销售量
2. 经典例题
【多选题】 下列现象具有相关关系的有(ABD)。
A. 降雨量与农作物产量
B. 人的身高与体重
C. 人口自然增长与机械变动
D. 广告费与销售量
E. 存款利率与利息
解析:C项(人口自然增长与机械变动)统计独立;E项(存款利率与利息)为函数关系。
第二节 相关关系的展示——散点图
- 作用:直观展示两变量间的分布趋势(线性/非线性、方向、强度)
- 类型:
- 正相关(点向右上方延伸)
- 负相关(点向右下方延伸)
- 无相关(点随机分布)
- 示例:身高与体重散点图显示正相关趋势。
第三节 相关关系的度量与性质
1. Pearson相关系数( r r r)
- 公式:
r = ∑ ( x − x ˉ ) ( y − y ˉ ) ∑ ( x − x ˉ ) 2 ∑ ( y − y ˉ ) 2 r = \frac{\sum (x - \bar{x})(y - \bar{y})}{\sqrt{\sum (x - \bar{x})^2} \sqrt{\sum (y - \bar{y})^2}} r=∑(x−xˉ)2∑(y−yˉ)2∑(x−xˉ)(y−yˉ) - 性质:
- 范围: r ∈ [ − 1 , 1 ] r \in [-1, 1] r∈[−1,1]
- 方向:
- r > 0 r > 0 r>0:正相关
- r < 0 r < 0 r<0:负相关
- 强度分级(经验法则):
- ∣ r ∣ ≥ 0.8 |r| \geq 0.8 ∣r∣≥0.8:高度相关
- 0.5 ≤ ∣ r ∣ < 0.8 0.5 \leq |r| < 0.8 0.5≤∣r∣<0.8:中度相关
- 0.3 ≤ ∣ r ∣ < 0.5 0.3 \leq |r| < 0.5 0.3≤∣r∣<0.5:中低度相关
- ∣ r ∣ < 0.3 |r| < 0.3 ∣r∣<0.3:低度相关
2. 重要说明
- r = 0 r = 0 r=0 仅表示无线性相关,可能存在非线性关系(如抛物线分布)。
- 示例:身高与体重数据计算得 r = 0.83 r = 0.83 r=0.83,属高度正相关。
3. 经典例题
【单选题】 相关程度最高的是(C)。
C. 平均流通费用率与商业利润率的相关系数为 − 0.95 -0.95 −0.95
解析:绝对值最大( 0.95 > 0.92 0.95 > 0.92 0.95>0.92),负号仅表示方向。
第四节 相关关系的检验
1. 检验步骤( t t t检验)
- 原假设 H 0 H_0 H0:总体相关系数 ρ = 0 \rho = 0 ρ=0(无线性相关)
- 备择假设 H 1 H_1 H1: ρ ≠ 0 \rho \neq 0 ρ=0(存在线性相关)
- 检验统计量:
t = ∣ r ∣ n − 2 1 − r 2 ∼ t ( n − 2 ) t = |r| \sqrt{\frac{n-2}{1 - r^2}} \quad \sim t(n-2) t=∣r∣1−r2n−2∼t(n−2) - 决策:
- 若 ∣ t ∣ > t α / 2 ( n − 2 ) |t| > t_{\alpha/2}(n-2) ∣t∣>tα/2(n−2) 或 p ≤ α p \leq \alpha p≤α,拒绝 H 0 H_0 H0
- 适用性:适用于大样本和小样本
2. 经典例题
【判断题】 相关系数检验只能用于大样本(×)。
解析: t t t检验适用于所有样本量。
第五节 相关关系与因果关系
1. 核心观点
- 相关 ≠ 因果
- 示例:冰激凌销量与溺水死亡数正相关(共同原因:夏季高温)
- 统计工具主要探求相关关系,因果关系需更复杂分析(如控制混杂变量)。
2. 注意事项
- 高相关可能是由于:
- 直接因果
- 共同原因
- 偶然性
- 经典例题:吸烟与肺癌高度相关,但需考虑年龄、遗传等混杂因素。
总结图示
概念 | 要点 |
---|---|
函数关系 | 严格确定, y = f ( x ) y = f(x) y=f(x) |
相关关系 | 非确定性,用散点图和 Pearson 系数度量 |
检验 | t t t检验判断总体相关性,原假设 ρ = 0 \rho = 0 ρ=0 |
因果关系 | 需排除混杂变量,相关仅为必要条件非充分条件 |