机器学习回顾——线性回归
线性回归详解:从基础到实践
1. 核心思想与应用场景
线性回归是机器学习中最基础、最经典的模型之一,它主要用于解决回归问题(预测连续值)。该模型在多个领域都有广泛应用:
- 房价预测:根据房屋面积、位置、房龄等特征预测房价
- 销售预测:基于历史销售数据、市场活动等预测未来销售额
- 医学研究:分析药物剂量与疗效之间的关系
线性与回归的深层理解
"线性"的双重含义:
- 模型是参数的线性函数(如θ₀ + θ₁x₁ + θ₂x₂)
- 允许输入特征的任意变换(如多项式特征x²),只要保持对参数的线性关系
- 示例:y = θ₀ + θ₁x + θ₂x²仍属于线性回归模型
"回归"的本质:
- 与分类问题不同,回归预测的是连续数值
- 预测值可以取一定范围内的任何实数值
- 典型的回归任务包括温度预测、股票价格预测等
2. 模型表示与数学形式
一元线性回归(单变量)
最简单的线性回归形式,适用于只有一个特征的情况:
hθ(x) = θ₀ + θ₁x
- 参数解释:
- θ₀ (截距):当所有特征为0时的预测值
- θ₁ (斜率):特征x每增加1个单位,预测值的变化量
- 示例:在房价预测中,θ₀可能代表基础房价,θ₁代表每平方米的价格
多元线性回归(多变量)
现实问题通常涉及多个特征:
hθ(x) = θ₀ + θ₁x₁ + θ₂x₂ + ... + θₙxₙ
- 向量化表示:
- 定义x₀=1,可以简写为hθ(x) = θᵀx
- θ = [θ₀, θ₁, ..., θₙ]ᵀ
- x = [x₀, x₁, ..., xₙ]ᵀ
3. 代价函数详解
均方误差(MSE)代价函数
J(θ) = 1/2m ∑(hθ(xⁱ) - yⁱ)²
组成要素:
- m:训练样本数量
- hθ(xⁱ):第i个样本的预测值
- yⁱ):第i个样本的真实值
- 1/2系数:为了数学推导方便(求导后系数为1)
为什么选择MSE?
- 对大的误差惩罚更重(平方项)
- 数学性质好,便于求导优化
- 具有唯一最优解(凸函数)
代价函数的可视化
通过绘制不同θ值下的J(θ)可以直观理解:
- 对于简单线性回归,J(θ)呈"碗状"
- 最低点对应最优参数组合
4. 梯度下降优化算法
算法详细步骤
初始化参数:
- 通常设为0向量:θ = [0, 0, ..., 0]ᵀ
- 也可以随机初始化
参数更新规则:
θⱼ := θⱼ - α (1/m) ∑(hθ(xⁱ) - yⁱ)xⱼⁱ
- α:学习率(典型值:0.01, 0.001等)
- 需要同时更新所有θⱼ
收敛判定:
- 代价函数变化小于阈值(如1e-5)
- 达到最大迭代次数(如1000次)
学习率的选择
- 太小:收敛速度慢
- 太大:可能无法收敛甚至发散
- 建议:尝试0.001, 0.003, 0.01, 0.03, 0.1等值
5. 实践流程扩展
数据准备与预处理
特征工程:
- 处理缺失值
- 特征缩放(标准化/归一化)
- 创建多项式特征
数据拆分:
- 典型比例:70%训练集,30%测试集
- 使用交叉验证评估模型性能
模型评估指标
除了MSE,还可以使用:
- RMSE:均方根误差(√MSE)
- R²分数:解释方差比例
- MAE:平均绝对误差
模型诊断与改进
检查假设:
- 线性性:绘制残差图
- 同方差性:残差应随机分布
改进方法:
- 增加多项式特征
- 使用正则化(岭回归/Lasso)
- 处理异常值
6. 优缺点深入分析
优点扩展
计算效率:
- 训练复杂度O(n²p),n为样本数,p为特征数
- 对于小规模数据几乎瞬时完成
可解释性:
- 每个系数代表特征对目标的影响程度
- 可以计算置信区间和p值
缺点应对策略
非线性问题:
- 解决方案:添加多项式特征
- 示例:引入x², x³等项
异常值敏感:
- 解决方案:使用Huber损失函数
- 或改用分位数回归
多重共线性:
- 解决方案:主成分分析(PCA)
- 或使用正则化方法
7. 高级应用场景
时间序列预测:
- 结合自回归(AR)模型
- 处理季节性因素
因果推断:
- 用于分析变量间的因果关系
- 需要控制混杂变量
集成学习基模型:
- 作为Bagging或Boosting的弱学习器
- 在Stacking中作为元模型
误差项的定义与意义
在多元线性回归模型中,因变量 y 与自变量 x₁,x₂,...,xₖ 的关系可表示为:
yᵢ = β₀ + β₁xᵢ₁ + β₂xᵢ₂ + ... + βₖxᵢₖ + εᵢ
其中:
- yᵢ 为个体 i 的因变量观测值
- β₀ 为截距项
- β₁,...,βₖ 为回归系数
- xᵢ₁,...,xᵢₖ 为个体 i 的自变量观测值
- εᵢ 为误差项(随机扰动项)
误差项 εᵢ 反映了实际值 yᵢ 与模型预测值 ŷᵢ 之间的差异,体现了模型的不完美性。
误差项的构成及其存在原因
任何模型都不可能完全捕捉现实世界的复杂性。误差项 ε 包含以下未被模型解释的因素:
遗漏变量偏差
模型无法纳入所有影响因素。例如房价模型中,装修品味、社区氛围等难以量化的因素都会被归入误差项。测量误差
数据收集过程中的不精确性,如自我报告收入、历史天气记录等的偏差。固有随机性
现象本身的不可预测波动,如相同特征的消费者可能有不同的消费金额。模型设定误差
模型形式可能不正确,如忽略了非线性关系或交互效应导致的系统性偏差。
经典假设:误差项的期望特性
为保证普通最小二乘法(OLS)估计的最优性,我们对误差项 ε 做出以下关键假设:
零条件均值
E(εᵢ|X)=0- 确保OLS估计量无偏
- 模型不存在系统性高估或低估
同方差性
Var(εᵢ|X)=σ²(常数)- 保证估计系数标准误的有效性
- 违背会导致异方差性问题
无自相关
Cov(εᵢ,εⱼ|X)=0 (∀i≠j)- 观测间误差项相互独立
- 时间序列数据中常见违背情况
正态性
εᵢ|X ~ N(0,σ²)- 对小样本统计推断至关重要
- 大样本下可放宽
与自变量不相关
Cov(εᵢ,xⱼ)=0- 由零条件均值保证
- 违背会导致内生性问题
误差项分析:残差诊断
通过残差 eᵢ=yᵢ-ŷᵢ 可检验上述假设:
检验假设 | 诊断方法 | 异常表现 |
---|---|---|
线性性与同方差性 | 残差-拟合值图 | U型曲线(非线性)<br>漏斗形(异方差) |
正态性 | Q-Q图 | 点偏离参考线 |
独立性 | 残差时序图(时间序列) | 周期性或趋势 |
自相关函数图 | 显著自相关bar |
极大似然估计
核心思想
在给定观测数据的前提下,寻找能够最大概率生成这些数据的模型参数。
示例(硬币问题)
- 假设抛掷一枚不均匀硬币10次,得到7次正面和3次反面
- 目标是估计硬币正面朝上的概率p
- 通过比较不同p值下出现7正3反的概率:
- 当p=0.5时,概率约为0.117
- 当p=0.7时,概率提升至0.267
- 当p=0.9时,概率下降至0.057
- 结论:p=0.7时观测概率最大,因此MLE估计值为0.7
数学定义
似然函数
- 定义:L(θ|D) = P(D|θ),表示参数θ下观测到数据D的概率
- 对于独立同分布数据:L(θ|D) = ∏P(x_i|θ)
对数似然函数
- 转换公式:ℓ(θ|D) = log L(θ|D) = ∑logP(x_i|θ)
- 优势:解决连乘计算问题,保持单调性
极大似然估计
- 目标:θ̂_MLE = argmax L(θ|D) = argmax ℓ(θ|D)
- 解法:通过求导令∂ℓ(θ)/∂θ = 0
经典案例:正态分布MLE
似然函数:
L(μ,σ²|D) = ∏(1/√(2πσ²))exp[-(x_i-μ)²/(2σ²)]对数似然:
ℓ(μ,σ²) = -n/2 log(2π) - n/2 log(σ²) - 1/(2σ²)∑(x_i-μ)²参数估计:
- μ̂_MLE = (1/n)∑x_i(样本均值)
- σ̂²_MLE = (1/n)∑(x_i-μ̂)²(有偏样本方差)
MLE与线性回归
- 模型假设:y_i = βᵀx_i + ε_i,ε_i ∼ N(0,σ²)
- 对数似然函数:
ℓ(β,σ²) = -n/2 log(2πσ²) - 1/(2σ²)∑(y_i-βᵀx_i)² - 优化等价性:
最大化似然函数 ⇨ 最小化残差平方和(RSS)
优劣势分析
优势:
- 理论完备性(一致性、渐近正态性)
- 广泛模型适用性
- 可计算性强
局限性:
- 模型假设敏感性
- 小样本偏差风险
- 复杂模型计算成本
核心要点总结
概念 | 关键说明 |
---|---|
MLE目标 | 最大化观测数据概率 |
似然函数 | L(θ)=P(D |
求解途径 | 解析求导/数值优化 |
与OLS关系 | 正态假设下二者等价 |
典型应用 | 回归模型、分类算法、深度网络 |