当前位置: 首页 > web >正文

回归分析(线性/非线性)

回归分析是统计学中一种强大的工具,用于探究变量之间的关系,并基于此建立预测模型。

1.回归分析的目的

研究一个或多个自变量与因变量之间的依赖关系,并建立数学模型进行预测或因果推断,进而研究变量间的关系和强度。有些时候通过采集部分数据进行回归分析,我们就可以推算出在未采集数据的区间因变量的变化。

2.回归模型的类型

2.1 线性回归

适用于因变量是连续变量,且与自变量呈线性关系。

模型公式

$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p + \epsilon $

 这个是多元一次方程,x 的数量就是自变量的数量。

参数估计:最小二乘法(OLS),最小化残差平方和:

$ \sum_{i=1}^n (Y_i - \hat{Y}_i)^2 $

 其中 Y_{i} 代表着观测值的实际结果,而 \hat{Y}_i 则是我们通过模型预测的结果。

最小化残差平方和(最小二乘法,Ordinary Least Squares, OLS)的目的是为了找到最优的模型参数,使得模型预测值与真实值的误差尽可能小。

2.2 逻辑回归

适用于因变量为二元分类变量(一种只包含两个互斥类别的分类变量,也称为二值变量或二元变量,如0/1)。

模型公式:通过sigmoid函数映射线性组合为概率:

$ P(Y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X)}} $

Sigmoid函数(即Logistic函数)被广泛用于将线性模型的输出映射到概率区间 [0,1],确保输出的可解释性。

原因解释
概率压缩将线性输出映射到 [0,1] , 符合概率定义
广义线性模型的理论基础作为Logit逆函数,连接线性模型与伯努利分布
极大似然优化的数学便利性交叉熵损失与梯度计算简单
导数易于计算$\sigma'(z) = \sigma(z)(1-\sigma(z))$,适合反向传播
权重可解释性$\beta_j$ 反映变量对对数几率的影响

扩展其他两种函数:

函数用途输入输出关键特性
ReLU隐藏层的激活函数单个标量0或保留原值(非线性)缓解梯度消失、计算高效、稀疏性
Softmax输出层的概率归一化向量(多个标量)概率分布(和为1)多分类适配、交叉熵优化友好、可解释性强

参数估计:极大似然估计(MLE),通过迭代优化(如牛顿法)最大化似然函数,其主要作用是通过最大化似然函数来确定最能描述观测数据的模型参数

MLE优势:

(1)一致性:当样本量趋于无穷时,MLE估计值依概率收敛于真实参数值。

(2)渐进正态性:在大样本下,MLE估计量服从正态分布,便于构建置信区间和假设检验。

(3)有效性:在无偏估计量中,MLE的方差达到Cramér-Rao下界,即具有最小方差。

解析解不可得时,MLE通过梯度下降、牛顿法、EM算法等最大化似然函数。现代工具(如TensorFlow、PyTorch)支持直接优化似然函数,使MLE广泛应用如神经网络。

2.3 多元回归与多项式回归

多元回归:包含多个自变量的线性回归。

多项式回归:自变量包含高次项(如 $X^2, X^3$),用于捕捉非线性关系。

2.4 其他回归方法

(1)岭回归(Ridge) & Lasso回归:通过L2/L1正则化处理多重共线性和防止过拟合。

(2)分位数回归:估计因变量在不同分位数下的条件分布,对异常值更稳健。

(3)泊松回归:因变量为计数型变量(如事件发生次数)。

3. 回归问题分析步骤

(1)确定研究问题:明确自变量与因变量。

(2)数据清洗:处理缺失值、异常值。

(3)探索性分析:绘制散点图、计算相关系数。

(4)模型选择:根据变量类型选择线性、逻辑或其他回归。

(5)参数估计:使用OLS、MLE等方法求解。

(6)模型诊断:检验R²、残差、共线性等。

R²(决定系数):解释自变量对因变量变异的比例,范围0~1,越高越好。

$ R^2 = 1 - \frac{\text{SS}_{\text{res}}}{\text{SS}_{\text{tot}}} = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2} $

 $\text{SS}_{\text{res}}$:残差平方和

$\text{SS}_{\text{tot}}$:总平方和

残差分析:检查残差是否随机分布(无趋势、异方差性)。

通过可视化(残差图、Q-Q图)和统计检验(Shapiro-Wilk、Durbin-Watson)判断是否符合假设。

(7)模型优化:添加/删除变量、尝试正则化。

(8)结果解释:分析系数符号、大小及统计显著性。

4. 应用场景

(1)经济学:预测GDP增长与失业率的关系。

(2)医学:研究吸烟对肺癌发病率的影响。

(3)机器学习:房价预测(线性回归)、用户流失预测(逻辑回归)。

常见的问题:

(1)混淆相关与因果:回归只能说明变量关联,不能证明因果关系。

(2)忽视模型假设:如线性、正态性、同方差性需验证。

(3)过拟合风险:盲目添加变量导致模型泛化能力下降。

回归分析通过数学建模量化变量间的关系,是数据分析的基础工具之一。能够帮助从数据中提取有价值的信息,支持科学决策与预测。

http://www.xdnf.cn/news/7989.html

相关文章:

  • docker常用指令
  • 自制操作系统day6(GDTR、段描述符、PIC、实模式和保护模式、16位到32位切换、中断处理程序、idt的设定、EFLAG寄存器)(ai辅助整理)
  • JVM梳理(逻辑清晰)
  • 为何天线的长度设计为频率波长的四分之一?
  • TurboID技术:邻近标记技术的高效工具
  • Mujoco 学习系列(三)机器人状态IO与仿真操作
  • android RecyclerView列表DiffCallback说明
  • UI自动化测试框架:PO模式+数据驱动
  • 【面试题】Session 和 Cookie 的区别
  • 在Windows上安装Pygame 2.1.3:解决常见问题
  • CountDownLatch设计原理剖析:同步屏障的底层逻辑
  • 网络 :网络基础【网络框架认识】
  • DPDK 技术详解:榨干网络性能的“瑞士军刀”
  • 英伟达CEO黄仁勋COMPUTEX 2025演讲实录:AI工厂时代已来,Blackwell架构全面投产
  • 【Spring Boot】配置实战指南:Properties与YML的深度对比与最佳实践
  • #Redis缓存篇#(七)分布式缓存
  • 第二次中医知识问答微调
  • 【图像大模型】Hunyuan-DiT:腾讯多模态扩散Transformer的架构创新与工程实践
  • 【数据集】中国10m建筑物高度CNBH-10m数据集(2020年)
  • 多模态大语言模型arxiv论文略读(八十七)
  • 5.21 note
  • 广州附医华南医院首创智能戒酒新范式:神经重塑芯片调控联合多模态心理康复的临床实践
  • DeepSeek之RAG检索增强生成
  • 鸿蒙符号button
  • 篇章九 消息持久化(一)
  • GraphPad Prism设计国民经济和社会发展结构指标项目
  • JVM——类加载器
  • 【Python】总结像大模型一样一个字一个字输出的方法
  • Simon J.D. Prince《Understanding Deep Learning》
  • [TCG] QEMU TCG 概览