《一元线性回归:从基础到应用及模型处理》
一、相关分析基础
(一)变量间关系类型
-
函数关系:变量间存在一一对应的确定关系,如 y = f ( x ) y = f(x) y=f(x),当 x x x确定时, y y y唯一确定。
-
统计关系(相关关系):变量间存在不确定的数量关系,一个变量的取值不能由另一个变量唯一确定,但按某种规律变化,如商品需求量与价格的关系。
(二)相关关系的种类
- 按变量数量:
-
单相关:两个变量间的相关关系。
-
复相关:多个变量间的相关关系。
- 按表现形式:
-
线性相关:变量间关系可用直线近似描述。
-
非线性相关:变量间关系需用曲线描述。
- 按变化方向:
-
正相关:变量间变化趋势相同。
-
负相关:变量间变化趋势相反。
(三)相关系数
- 总体相关系数(ρ):度量两随机变量线性关系密切程度,公式为:
ρ = C o v ( X , Y ) V a r ( X ) V a r ( Y ) \rho = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} ρ=Var(X)Var(Y)Cov(X,Y)
其中 C o v ( X , Y ) Cov(X,Y) Cov(X,Y)为协方差, V a r ( X ) Var(X) Var(X)、 V a r ( Y ) Var(Y) Var(Y)为方差。
- 样本相关系数(r):总体相关系数的估计量,公式为:
r = ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ i = 1 n ( X i − X ˉ ) 2 ∑ i = 1 n ( Y i − Y ˉ ) 2 r = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2\sum_{i=1}^{n}(Y_i - \bar{Y})^2}} r=∑i=1n(Xi−Xˉ)2∑i=1n(Yi−Yˉ)2∑i=1n(Xi−Xˉ)(Yi−Yˉ)
性质: r r r与回归系数 b 1 b_1 b1符号相同,因分子相同且分母恒正。
- 相关系数的特点:
-
∣ r ∣ ≤ 1 |r| \leq 1 ∣r∣≤1。
-
r = 0 r=0 r=0时,变量间无线性相关关系。
-
0 < ∣ r ∣ < 1 0 < |r| < 1 0<∣r∣<1时,存在不同程度的线性相关( r > 0 r>0 r>0正相关, r < 0 r<0 r<0负相关)。
-
∣ r ∣ = 1 |r|=1 ∣r∣=1时,变量间完全线性相关。
- 相关系数的经验解释:
-
∣ r ∣ ≥ 0.8 |r| \geq 0.8 ∣r∣≥0.8:高度相关。
-
0.5 ≤ ∣ r ∣ < 0.8 0.5 \leq |r| < 0.8 0.5≤∣r∣<0.8:中度相关。
-
0.3 ≤ ∣ r ∣ < 0.5 0.3 \leq |r| < 0.5 0.3≤∣r∣<0.5:低度相关。
-
∣ r ∣ < 0.3 |r| < 0.3 ∣r∣<0.3:相关性极弱。
(四)相关系数的注意事项
-
X X X和 Y Y Y是对称的随机变量。
-
仅反映线性相关程度,不反映非线性关系。
-
不能确定变量间的因果关系。
二、一元线性回归模型
(一)模型基本假设与使用前提
- 线性关系假设:因变量 Y Y Y与自变量 X X X之间存在线性统计关系,即总体回归函数为 E ( Y ) = β 0 + β 1 X E(Y) = \beta_0 + \beta_1X E(Y)=β0+β1X。
- 检验:绘制散点图观察数据分布趋势。
- 变量类型要求:
-
自变量 X X X:可以是确定性变量或随机变量(需与误差项不相关)。
-
因变量 Y Y Y:连续型随机变量。
- 误差项的统计假设:
-
正态性: ε i ∼ N ( 0 , σ 2 ) \varepsilon_i \sim N(0, \sigma^2) εi∼N(0,σ2),即 Y i ∼ N ( β 0 + β 1 X i , σ 2 ) Y_i \sim N(\beta_0 + \beta_1X_i, \sigma^2) Yi∼N(β0+β1Xi,σ2)。
-
独立性: C o v ( ε i , ε j ) = 0 ( i ≠ j ) Cov(\varepsilon_i, \varepsilon_j) = 0 \ (i \neq j) Cov(εi,εj)=0 (i=j)。
-
同方差性: V a r ( ε i ) = σ 2 Var(\varepsilon_i) = \sigma^2 Var(εi)=σ2对所有 i i i成立。
- 数据质量要求:
-
样本代表性:随机独立抽样。
-
无异常值:残差 e i = Y i − Y ^ i e_i = Y_i - \hat{Y}_i ei=Yi−Y^i的绝对值不能过大(通常 ∣ e i ∣ > 3 s |e_i| > 3s ∣ei∣>3s视为异常)。
-
样本量: n > 2 n > 2 n>2,建议 n ≥ 30 n \geq 30 n≥30以保证统计推断可靠性。
(二)模型构建与参数估计
-
模型形式: Y i = β 0 + β 1 X i + ε i Y_i = \beta_0 + \beta_1X_i + \varepsilon_i Yi=β0+β1Xi+εi,其中 ε i \varepsilon_i εi为随机误差项,反映未被 X X X解释的随机波动。
-
最小二乘估计(OLS):
-
目标:使误差平方和 Q = ∑ i = 1 n ( Y i − Y ^ i ) 2 = ∑ i = 1 n ( Y i − b 0 − b 1 X i ) 2 Q = \sum_{i=1}^{n}(Y_i - \hat{Y}_i)^2 = \sum_{i=1}^{n}(Y_i - b_0 - b_1X_i)^2 Q=∑i=1n(Yi−Y^i)2=∑i=1n(Yi−b0−b1Xi)2最小。
-
估计公式:
b 1 = ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ i = 1 n ( X i − X ˉ ) 2 , b 0 = Y ˉ − b 1 X ˉ b_1 = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n}(X_i - \bar{X})^2}, \quad b_0 = \bar{Y} - b_1\bar{X} b1=∑i=1n(Xi−Xˉ)2∑i=1n(Xi−Xˉ)(Yi−Yˉ),b0=Yˉ−b1Xˉ
-
系数解释:
-
b 1 b_1 b1:斜率系数,表示 X X X每增加 1 个单位, Y Y Y的平均变化量(如收入每增加 100 元,消费平均增加 62.39 元)。
-
b 0 b_0 b0:截距系数,表示 X = 0 X=0 X=0时 Y Y Y的理论值(需结合实际意义判断是否有解释价值)。
-
- 估计量特性:
-
线性性: b 0 b_0 b0、 b 1 b_1 b1是 Y i Y_i Yi的线性组合。
-
无偏性: E ( b 0 ) = β 0 E(b_0) = \beta_0 E(b0)=β0, E ( b 1 ) = β 1 E(b_1) = \beta_1 E(b1)=β1。
-
有效性:在满足假设时,OLS 估计量是最优线性无偏估计量(BLUE)。
(三)引例分析
问题:10 个厂家的投入( X X X)和产出( Y Y Y)数据如下,分析相关性并建立回归方程。
厂家 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
投入 | 20 | 40 | 20 | 30 | 10 | 10 | 20 | 20 | 20 | 30 |
产出 | 30 | 60 | 40 | 60 | 30 | 40 | 40 | 50 | 30 | 70 |
步骤:
-
计算基础数据: X ˉ = 22 \bar{X} = 22 Xˉ=22, Y ˉ = 42 \bar{Y} = 42 Yˉ=42, ∑ ( X i − X ˉ ) ( Y i − Y ˉ ) = 510 \sum(X_i - \bar{X})(Y_i - \bar{Y}) = 510 ∑(Xi−Xˉ)(Yi−Yˉ)=510, ∑ ( X i − X ˉ ) 2 = 440 \sum(X_i - \bar{X})^2 = 440 ∑(Xi−Xˉ)2=440。
-
回归系数: b 1 = 510 440 ≈ 1.1818 b_1 = \frac{510}{440} \approx 1.1818 b1=440510≈1.1818, b 0 = 42 − 1.1818 × 22 ≈ 15.8004 b_0 = 42 - 1.1818 \times 22 \approx 15.8004 b0=42−1.1818×22≈15.8004。
-
回归方程: Y ^ = 15.8004 + 1.1818 X \hat{Y} = 15.8004 + 1.1818X Y^=15.8004+1.1818X。
-
残差计算:如厂家 1 的残差 e 1 = 30 − ( 15.8004 + 1.1818 × 20 ) ≈ − 12.836 e_1 = 30 - (15.8004 + 1.1818 \times 20) \approx -12.836 e1=30−(15.8004+1.1818×20)≈−12.836,残差反映观测值与预测值的偏差。
三、回归模型的检验
(一)总平方和分解
-
总离差平方和(SSTO): S S T O = ∑ i = 1 n ( Y i − Y ˉ ) 2 SSTO = \sum_{i=1}^{n}(Y_i - \bar{Y})^2 SSTO=∑i=1n(Yi−Yˉ)2,反映 Y Y Y的总变动程度。
-
回归平方和(SSR): S S R = ∑ i = 1 n ( Y ^ i − Y ˉ ) 2 SSR = \sum_{i=1}^{n}(\hat{Y}_i - \bar{Y})^2 SSR=∑i=1n(Y^i−Yˉ)2,反映 X X X对 Y Y Y的解释变动。
-
误差平方和(SSE): S S E = ∑ i = 1 n ( Y i − Y ^ i ) 2 SSE = \sum_{i=1}^{n}(Y_i - \hat{Y}_i)^2 SSE=∑i=1n(Yi−Y^i)2,反映随机因素引起的变动。
-
关键关系: S S T O = S S R + S S E SSTO = SSR + SSE SSTO=SSR+SSE,体现回归模型对总变动的分解能力。
(二)拟合优度检验(样本确定系数 r 2 r^2 r2)
-
公式: r 2 = S S R S S T O r^2 = \frac{SSR}{SSTO} r2=SSTOSSR,表示 Y Y Y的总变差中被 X X X解释的比例。
-
取值范围: 0 ≤ r 2 ≤ 1 0 \leq r^2 \leq 1 0≤r2≤1, r 2 r^2 r2越接近 1,模型拟合效果越好。
-
与相关系数的关系: r 2 = ( æ ⋅ æœ ¬ c \c ›¸ a ˚ 3 c \c 3 »æ• ° r ) 2 r^2 = (æ ·æœ¬ç›¸å ³ç³»æ•°r)^2 r2=(æ⋅本c\c›¸a˚3c\c3»æ•°r)2,即确定系数是相关系数的平方,反映线性关系的解释力度。
(三)显著性检验
- F 检验(回归方程显著性检验):
-
假设: H 0 : β 1 = 0 H_0: \beta_1 = 0 H0:β1=0( X X X与 Y Y Y无线性关系), H 1 : β 1 ≠ 0 H_1: \beta_1 \neq 0 H1:β1=0。
-
统计量: F = S S R / 1 S S E / ( n − 2 ) = M S R M S E F = \frac{SSR/1}{SSE/(n-2)} = \frac{MSR}{MSE} F=SSE/(n−2)SSR/1=MSEMSR,其中 M S R = S S R 1 MSR = \frac{SSR}{1} MSR=1SSR, M S E = S S E n − 2 MSE = \frac{SSE}{n-2} MSE=n−2SSE。
-
决策规则:若 F > F α ( 1 , n − 2 ) F > F_{\alpha}(1, n-2) F>Fα(1,n−2),拒绝 H 0 H_0 H0,表明回归方程显著。
- t 检验(回归系数显著性检验):
-
假设: H 0 : β 1 = 0 H_0: \beta_1 = 0 H0:β1=0, H 1 : β 1 ≠ 0 H_1: \beta_1 \neq 0 H1:β1=0。
-
统计量: t = b 1 s ( b 1 ) t = \frac{b_1}{s(b_1)} t=s(b1)b1,其中 s ( b 1 ) = M S E ∑ i = 1 n ( X i − X ˉ ) 2 s(b_1) = \sqrt{\frac{MSE}{\sum_{i=1}^{n}(X_i - \bar{X})^2}} s(b1)=∑i=1n(Xi−Xˉ)2MSE为 b 1 b_1 b1的标准误。
-
决策规则:若 ∣ t ∣ > t α / 2 ( n − 2 ) |t| > t_{\alpha/2}(n-2) ∣t∣>tα/2(n−2),拒绝 H 0 H_0 H0,表明 β 1 \beta_1 β1显著非零。
- 相关系数检验:
-
假设: H 0 : ρ = 0 H_0: \rho = 0 H0:ρ=0, H 1 : ρ ≠ 0 H_1: \rho \neq 0 H1:ρ=0。
-
统计量:样本相关系数 r r r。
-
决策规则:若 ∣ r ∣ > r α ( n − 2 ) |r| > r_{\alpha}(n-2) ∣r∣>rα(n−2),拒绝 H 0 H_0 H0,表明变量间线性相关显著。
(四)模型适合性分析
-
残差定义: e i = Y i − Y ^ i e_i = Y_i - \hat{Y}_i ei=Yi−Y^i,是观测值与预测值的差,反映模型未解释的部分。
-
异方差性检验:
-
现象:残差图呈现发散 / 收敛趋势(如 PPT 图 9-10),表明误差项方差非恒定。
-
处理:加权最小二乘法(WLS),如使用权重 w i = 1 / X i w_i = 1/X_i wi=1/Xi;或对 Y Y Y进行对数、平方根变换。
- 自相关性检验:
-
现象:时间序列数据中,残差图呈现周期性或趋势性(如 PPT 图 9-11、9-12),表明误差项不独立。
-
处理:加入滞后项构建自回归模型(如 Y t = β 0 + β 1 X t + ρ Y t − 1 + ε t Y_t = \beta_0 + \beta_1X_t + \rho Y_{t-1} + \varepsilon_t Yt=β0+β1Xt+ρYt−1+εt),或使用广义差分法。
- 异常值检测:
-
方法:计算标准化残差 e i / s e_i/s ei/s,若 ∣ e i / s ∣ > 3 |e_i/s| > 3 ∣ei/s∣>3,视为异常值;绘制残差散点图,偏离较大的点需重点关注。
-
处理:验证数据准确性,若为真实异常值,可采用稳健回归(如最小绝对偏差 LAD)减少其影响。
四、因变量预测
(一)点预测
给定 X 0 X_0 X0,预测值为: Y ^ 0 = b 0 + b 1 X 0 \hat{Y}_0 = b_0 + b_1X_0 Y^0=b0+b1X0,即直接代入回归方程计算。
(二)区间预测
在置信度 1 − α 1-\alpha 1−α下, Y 0 Y_0 Y0的置信区间为:
Y ^ 0 ± t α / 2 ( n − 2 ) ⋅ s ⋅ 1 + 1 n + ( X 0 − X ˉ ) 2 ∑ i = 1 n ( X i − X ˉ ) 2 \hat{Y}_0 \pm t_{\alpha/2}(n-2) \cdot s \cdot \sqrt{1 + \frac{1}{n} + \frac{(X_0 - \bar{X})^2}{\sum_{i=1}^{n}(X_i - \bar{X})^2}} Y^0±tα/2(n−2)⋅s⋅1+n1+∑i=1n(Xi−Xˉ)2(X0−Xˉ)2
其中:
-
s = M S E s = \sqrt{MSE} s=MSE为残差标准差,衡量模型预测误差的平均水平。
-
1 + 1 n + ( X 0 − X ˉ ) 2 ∑ ( X i − X ˉ ) 2 \sqrt{1 + \frac{1}{n} + \frac{(X_0 - \bar{X})^2}{\sum(X_i - \bar{X})^2}} 1+n1+∑(Xi−Xˉ)2(X0−Xˉ)2为预测误差的放大因子,反映 X 0 X_0 X0与样本均值 X ˉ \bar{X} Xˉ的偏离程度。
(三)案例分析
问题:根据 1995-2004 年农村居民人均纯收入( X X X)和消费支出( Y Y Y)数据,预测 X = 3500 X=3500 X=3500元时的 Y Y Y。
已知条件:
-
回归方程: Y ^ = 292.8775 + 0.6239 X \hat{Y} = 292.8775 + 0.6239X Y^=292.8775+0.6239X。
-
样本统计量: X ˉ = 2262.035 \bar{X}=2262.035 Xˉ=2262.035, ∑ ( X i − X ˉ ) 2 = 1264471.423 \sum(X_i - \bar{X})^2=1264471.423 ∑(Xi−Xˉ)2=1264471.423, M S E = 3061.525 MSE=3061.525 MSE=3061.525, s = 3061.525 ≈ 55.33 s = \sqrt{3061.525} \approx 55.33 s=3061.525≈55.33。
步骤:
-
点预测: Y ^ 0 = 292.8775 + 0.6239 × 3500 ≈ 2476.41 \hat{Y}_0 = 292.8775 + 0.6239 \times 3500 \approx 2476.41 Y^0=292.8775+0.6239×3500≈2476.41(元)。
-
区间预测(95% 置信度):
-
t 0.025 ( 8 ) = 2.306 t_{0.025}(8)=2.306 t0.025(8)=2.306, n = 10 n=10 n=10。
-
计算误差项: s ⋅ 1 + 1 10 + ( 3500 − 2262.035 ) 2 1264471.423 ≈ 55.33 × 1.520 ≈ 84.13 s \cdot \sqrt{1 + \frac{1}{10} + \frac{(3500 - 2262.035)^2}{1264471.423}} \approx 55.33 \times 1.520 \approx 84.13 s⋅1+101+1264471.423(3500−2262.035)2≈55.33×1.520≈84.13。
-
置信区间: 2476.41 ± 2.306 × 84.13 2476.41 \pm 2.306 \times 84.13 2476.41±2.306×84.13,即 [ 2282.40 , 2670.41 ] [2282.40, 2670.41] [2282.40,2670.41]元。
结论:当人均纯收入为 3500 元时,有 95% 的概率人均消费支出在 2282.40 元至 2670.41 元之间。
五、模型使用条件不满足的处理
- 非线性关系:
-
识别:散点图呈曲线趋势(如抛物线、指数型)。
-
处理:
-
变量变换:如指数关系 Y = α e β X Y = \alpha e^{\beta X} Y=αeβX可转化为 ln Y = ln α + β X \ln Y = \ln \alpha + \beta X lnY=lnα+βX;幂函数关系 Y = α X β Y = \alpha X^{\beta} Y=αXβ可转化为 ln Y = ln α + β ln X \ln Y = \ln \alpha + \beta \ln X lnY=lnα+βlnX。
-
非线性回归:直接使用二次函数 Y = β 0 + β 1 X + β 2 X 2 Y = \beta_0 + \beta_1X + \beta_2X^2 Y=β0+β1X+β2X2等非线性模型。
-
- 异方差性:
-
处理:
-
加权最小二乘法(WLS):对误差方差大的观测值赋予较小权重,如 w i = 1 / X i 2 w_i = 1/X_i^2 wi=1/Xi2。
-
数据变换:对 Y Y Y取对数 ln Y \ln Y lnY,使方差趋于稳定。
-
- 自相关性:
-
处理:
-
时间序列模型:加入滞后项,如 Y t = β 0 + β 1 X t + ρ Y t − 1 + ε t Y_t = \beta_0 + \beta_1X_t + \rho Y_{t-1} + \varepsilon_t Yt=β0+β1Xt+ρYt−1+εt(一阶自回归模型)。
-
广义差分法:消除自相关影响,如对于一阶自相关 ε t = ρ ε t − 1 + u t \varepsilon_t = \rho \varepsilon_{t-1} + u_t εt=ρεt−1+ut,构造差分变量 Y t ∗ = Y t − ρ Y t − 1 Y_t^* = Y_t - \rho Y_{t-1} Yt∗=Yt−ρYt−1, X t ∗ = X t − ρ X t − 1 X_t^* = X_t - \rho X_{t-1} Xt∗=Xt−ρXt−1,建立 Y t ∗ = β 0 ( 1 − ρ ) + β 1 X t ∗ + u t Y_t^* = \beta_0(1 - \rho) + \beta_1X_t^* + u_t Yt∗=β0(1−ρ)+β1Xt∗+ut。
-
- 异常值:
-
处理:
-
验证数据准确性,若为记录错误,修正后重新建模。
-
若为真实异常值,采用稳健回归方法,如最小绝对偏差(LAD)估计,减少异常值对回归系数的影响。
-
六、做题技巧与分析流程
(一)完整分析流程
- 数据预处理:
-
绘制散点图,初步判断 X X X与 Y Y Y是否存在线性趋势。
-
计算样本相关系数 r r r,检验线性相关性是否显著(如 H 0 : ρ = 0 H_0: \rho = 0 H0:ρ=0)。
- 模型构建:
-
使用最小二乘法估计回归系数 b 0 b_0 b0、 b 1 b_1 b1,建立回归方程 Y ^ = b 0 + b 1 X \hat{Y} = b_0 + b_1X Y^=b0+b1X。
-
解释系数含义(如 b 1 b_1 b1代表 X X X对 Y Y Y的边际影响)。
- 模型检验:
-
计算确定系数 r 2 r^2 r2,评估拟合优度。
-
进行 F 检验和 t 检验,验证回归方程和系数的显著性。
-
绘制残差图,检验异方差性、自相关性和异常值。
(三)公式速查表
项目 | 公式 |
---|---|
样本相关系数 r r r | ∑ ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ ( X i − X ˉ ) 2 ∑ ( Y i − Y ˉ ) 2 \frac{\sum(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum(X_i - \bar{X})^2\sum(Y_i - \bar{Y})^2}} ∑(Xi−Xˉ)2∑(Yi−Yˉ)2∑(Xi−Xˉ)(Yi−Yˉ) |
回归系数 b 1 b_1 b1 | ∑ ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ ( X i − X ˉ ) 2 \frac{\sum(X_i - \bar{X})(Y_i - \bar{Y})}{\sum(X_i - \bar{X})^2} ∑(Xi−Xˉ)2∑(Xi−Xˉ)(Yi−Yˉ) |
确定系数 r 2 r^2 r2 | S S R S S T O = 1 − S S E S S T O \frac{SSR}{SSTO} = 1 - \frac{SSE}{SSTO} SSTOSSR=1−SSTOSSE |
F 统计量 | S S R / 1 S S E / ( n − 2 ) \frac{SSR/1}{SSE/(n-2)} SSE/(n−2)SSR/1 |
t 统计量( b 1 b_1 b1) | b 1 M S E ∑ ( X i − X ˉ ) 2 \frac{b_1}{\sqrt{\frac{MSE}{\sum(X_i - \bar{X})^2}}} ∑(Xi−Xˉ)2MSEb1 |
预测区间 | Y ^ 0 ± t α / 2 ( n − 2 ) ⋅ s ⋅ 1 + 1 n + ( X 0 − X ˉ ) 2 ∑ ( X i − X ˉ ) 2 \hat{Y}_0 \pm t_{\alpha/2}(n-2) \cdot s \cdot \sqrt{1 + \frac{1}{n} + \frac{(X_0 - \bar{X})^2}{\sum(X_i - \bar{X})^2}} Y^0±tα/2(n−2)⋅s⋅1+n1+∑(Xi−Xˉ)2(X0−Xˉ)2 |