当前位置: 首页 > ai >正文

中级统计师-统计学基础知识-第六章 回归分析

第一节 一元线性回归分析

1. 基本概念

  • 回归分析:通过数学模型描述因变量(Y)与自变量(X)之间的关系,并预测或解释因变量的变化。
  • 模型形式
    Y = β 0 + β 1 X + ε Y = \beta_0 + \beta_1 X + \varepsilon Y=β0+β1X+ε
    其中:
    • β 0 \beta_0 β0:截距项
    • β 1 \beta_1 β1:斜率(回归系数)
    • ε \varepsilon ε:随机误差项,满足 E ( ε ) = 0 E(\varepsilon)=0 E(ε)=0,同方差,独立正态分布。

2. 参数估计——最小二乘法

  • 目标:最小化残差平方和 Q = ∑ ( y i − y ^ i ) 2 Q = \sum (y_i - \hat{y}_i)^2 Q=(yiy^i)2
  • 求解公式
    β ^ 1 = n ∑ x i y i − ∑ x i ∑ y i n ∑ x i 2 − ( ∑ x i ) 2 , β ^ 0 = y ˉ − β ^ 1 x ˉ \hat{\beta}_1 = \frac{n \sum x_i y_i - \sum x_i \sum y_i}{n \sum x_i^2 - (\sum x_i)^2}, \quad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} β^1=nxi2(xi)2nxiyixiyi,β^0=yˉβ^1xˉ
  • 残差 e i = y i − y ^ i e_i = y_i - \hat{y}_i ei=yiy^i,表示观测值与拟合值的偏差。

3. 回归方程的评价

(1)判定系数 R 2 R^2 R2
  • 定义
    R 2 = S S R S S T = 1 − S S E S S T R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} R2=SSTSSR=1SSTSSE
    • S S T = ∑ ( y i − y ˉ ) 2 SST = \sum (y_i - \bar{y})^2 SST=(yiyˉ)2(总平方和)
    • S S R = ∑ ( y ^ i − y ˉ ) 2 SSR = \sum (\hat{y}_i - \bar{y})^2 SSR=(y^iyˉ)2(回归平方和)
    • S S E = ∑ ( y i − y ^ i ) 2 SSE = \sum (y_i - \hat{y}_i)^2 SSE=(yiy^i)2(残差平方和)
  • 意义 R 2 R^2 R2 越接近1,模型拟合越好。
(2)估计标准误差 s e s_e se
  • 公式
    s e = S S E n − 2 = ∑ ( y i − y ^ i ) 2 n − 2 s_e = \sqrt{\frac{SSE}{n-2}} = \sqrt{\frac{\sum (y_i - \hat{y}_i)^2}{n-2}} se=n2SSE =n2(yiy^i)2
  • 意义 s e s_e se 越小,预测精度越高。

4. 显著性检验

(1)回归方程显著性检验(F检验)
  • 假设
    H 0 : β 1 = 0 H_0: \beta_1 = 0 H0:β1=0(无线性关系)
    H 1 : β 1 ≠ 0 H_1: \beta_1 \neq 0 H1:β1=0
  • 统计量
    F = S S R / 1 S S E / ( n − 2 ) ∼ F ( 1 , n − 2 ) F = \frac{SSR/1}{SSE/(n-2)} \sim F(1, n-2) F=SSE/(n2)SSR/1F(1,n2)
    • F > F α ( 1 , n − 2 ) F > F_{\alpha}(1, n-2) F>Fα(1,n2) p < α p < \alpha p<α,拒绝 H 0 H_0 H0
(2)回归系数显著性检验(t检验)
  • 假设:同F检验
  • 统计量
    t = β ^ 1 V a r ( β ^ 1 ) ∼ t ( n − 2 ) t = \frac{\hat{\beta}_1}{\sqrt{Var(\hat{\beta}_1)}} \sim t(n-2) t=Var(β^1) β^1t(n2)
    • ∣ t ∣ > t α / 2 ( n − 2 ) |t| > t_{\alpha/2}(n-2) t>tα/2(n2) p < α p < \alpha p<α,拒绝 H 0 H_0 H0

5. 预测

  • 点预测 y ^ 0 = β ^ 0 + β ^ 1 x 0 \hat{y}_0 = \hat{\beta}_0 + \hat{\beta}_1 x_0 y^0=β^0+β^1x0
  • 区间预测(置信水平 1 − α 1-\alpha 1α):
    y ^ 0 ± t α / 2 ( n − 2 ) ⋅ s e 1 + 1 n + ( x 0 − x ˉ ) 2 ∑ ( x i − x ˉ ) 2 \hat{y}_0 \pm t_{\alpha/2}(n-2) \cdot s_e \sqrt{1 + \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{\sum (x_i - \bar{x})^2}} y^0±tα/2(n2)se1+n1+(xixˉ)2(x0xˉ)2

第二节 多元线性回归分析

1. 模型定义

  • 形式
    Y = β 0 + β 1 X 1 + β 2 X 2 + ⋯ + β k X k + ε Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k + \varepsilon Y=β0+β1X1+β2X2++βkXk+ε
  • 估计方程
    y ^ = β ^ 0 + β ^ 1 x 1 + ⋯ + β ^ k x k \hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \cdots + \hat{\beta}_k x_k y^=β^0+β^1x1++β^kxk

2. 参数估计(最小二乘法)

  • 目标:最小化残差平方和 Q = ∑ ( y i − y ^ i ) 2 Q = \sum (y_i - \hat{y}_i)^2 Q=(yiy^i)2
  • 标准方程组:通过偏导数为零求解 β ^ 0 , β ^ 1 , … , β ^ k \hat{\beta}_0, \hat{\beta}_1, \ldots, \hat{\beta}_k β^0,β^1,,β^k

3. 回归方程的评价

(1)多重判定系数 R 2 R^2 R2
  • 公式
    R 2 = S S R S S T = 1 − S S E S S T R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} R2=SSTSSR=1SSTSSE
  • 问题:自变量增多时 R 2 R^2 R2 会虚高,需使用 调整后的 R a 2 R_a^2 Ra2
    R a 2 = 1 − S S E / ( n − k − 1 ) S S T / ( n − 1 ) R_a^2 = 1 - \frac{SSE/(n-k-1)}{SST/(n-1)} Ra2=1SST/(n1)SSE/(nk1)
(2)估计标准误差

s e = S S E n − k − 1 s_e = \sqrt{\frac{SSE}{n - k - 1}} se=nk1SSE


4. 显著性检验

(1)整体显著性检验(F检验)
  • 假设
    H 0 : β 1 = β 2 = ⋯ = β k = 0 H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0 H0:β1=β2==βk=0
    H 1 H_1 H1:至少有一个 β j ≠ 0 \beta_j \neq 0 βj=0
  • 统计量
    F = S S R / k S S E / ( n − k − 1 ) ∼ F ( k , n − k − 1 ) F = \frac{SSR/k}{SSE/(n-k-1)} \sim F(k, n-k-1) F=SSE/(nk1)SSR/kF(k,nk1)
(2)单个系数显著性检验(t检验)
  • 假设 H 0 : β j = 0 H_0: \beta_j = 0 H0:βj=0
  • 统计量
    t = β ^ j V a r ( β ^ j ) ∼ t ( n − k − 1 ) t = \frac{\hat{\beta}_j}{\sqrt{Var(\hat{\beta}_j)}} \sim t(n-k-1) t=Var(β^j) β^jt(nk1)

5. 经典例题

例题1

【单选题】 多元回归中复相关系数的取值范围是(B)。
A. [-1,1]
B. [0,1]
C. [-1,0]
D. (0,1)

解析:复相关系数是 R 2 R^2 R2 的平方根,非负。

例题2

【单选题】 回归方程 y ^ = 15 + 1.6 x \hat{y} = 15 + 1.6x y^=15+1.6x,当 x = 10 x=10 x=10,实际值 y = 28 y=28 y=28,残差为(B)。
A. -15
B. -3
C. 3
D. 16

解析 y ^ = 15 + 1.6 × 10 = 31 \hat{y}=15+1.6×10=31 y^=15+1.6×10=31,残差 = 28 − 31 = − 3 =28-31=-3 =2831=3


总结对比表

指标一元回归多元回归
模型形式 Y = β 0 + β 1 X + ε Y = \beta_0 + \beta_1 X + \varepsilon Y=β0+β1X+ε Y = β 0 + β 1 X 1 + ⋯ + β k X k + ε Y = \beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k + \varepsilon Y=β0+β1X1++βkXk+ε
判定系数 R 2 R^2 R2(简单判定系数) R 2 R^2 R2 R a 2 R_a^2 Ra2(调整后判定系数)
显著性检验t检验和F检验等价F检验(整体)和t检验(单个系数)
预测区间公式 ( x 0 − x ˉ ) 2 ∑ ( x i − x ˉ ) 2 \frac{(x_0 - \bar{x})^2}{\sum (x_i - \bar{x})^2} (xixˉ)2(x0xˉ)2类似,但考虑多个自变量协方差矩阵
http://www.xdnf.cn/news/8056.html

相关文章:

  • 快速部起一个Openwhisk平台,使用telego k8s服务部署能力内网部署
  • 中小制造企业网络安全防护指南
  • Linux Docker下安装tomcat
  • Spring3+Vue3项目中的知识点——跨域与解决方案
  • Gartner《如果有效评估Generative AI项目的投资回报》学习心得
  • DeepSeek快速搭建个人网页
  • vue3基本介绍
  • 220V转1.25V-12V输出电路Multisim仿真
  • 【设计模式】责任链+模板+工程模式使用模板
  • indicator-sysmonitor 在Ubuntu 右上角实时显示CPU/MEM/NET的利用率
  • C#对集合进行分组IGroupingout TKey, out TElement>
  • 01. Qt介绍及Qt开发环境搭建(2025.05最新官网下载方式)
  • C++初阶-list的使用2
  • AI编程: OpenAI Codex vs Google Jules vs GitHub Copilot++
  • 5G 核心网切换机制全解析:XN、N2 与移动性注册对比
  • 初步尝试AI应用开发平台——Dify的本地部署和应用开发
  • 精益数据分析(77/126):问题-解决方案画布——创业团队的周度聚焦与迭代利器
  • GuzzleHttp和DomCrawler的具体用途?
  • HJ33 整数与IP地址间的转换【牛客网】
  • Flutter生物识别认证之Flutter指纹认证Flutter人脸认证
  • 养生指南:五维守护身心健康
  • HTML应用指南:利用POST请求获取全国中通快递服务网点位置信息
  • 【大模型面试每日一题】Day 26:从伦理角度,大模型可能存在哪些潜在风险?技术上如何实现内容安全控制(如RLHF、红队测试)?
  • JVM 高质量面试题
  • 利用GeoTools实现导出MySQL地理数据表为shp格式
  • Spring Task
  • 中科方德鸳鸯火锅平台使用教程:轻松运行Windows应用!
  • 网页 CSS美化(详解)
  • 养生新策:五维开启健康生活
  • 远程访问软件如何开启? 怎样让外网访问本地数据库服务?