当前位置：首页 > news >正文

L1与L2正则化详解：原理、API使用与实践指南

news 2025/7/15 21:45:11

一、正则化概述

正则化是机器学习中防止模型过拟合的核心技术之一，其核心思想是通过在损失函数中添加惩罚项来约束模型参数的大小，从而控制模型的复杂度。在模型训练过程中，正则化能够有效地抑制参数值过度增长，避免模型对训练数据中的噪声和异常值过分敏感。

最常见的两种正则化方法分别是：

L1正则化（Lasso回归）

通过在损失函数中添加模型参数的L1范数作为惩罚项
公式表示为：损失函数 + λΣ|w_i|
具有特征选择的能力，可以将不重要特征的系数压缩为0
适用于高维特征空间中的稀疏特征选择
典型应用场景：基因选择、文本分类的特征筛选

L2正则化（Ridge回归）

通过在损失函数中添加模型参数的L2范数的平方作为惩罚项
公式表示为：损失函数 + λΣw_i²
会使所有参数都趋向于较小的值，但不会完全为零
对异常值更鲁棒，能有效处理多重共线性问题
典型应用场景：图像识别、推荐系统等需要处理大量相关特征的任务

在实际应用中，这两种正则化方法可以单独使用，也可以组合使用（称为Elastic Net）。正则化系数λ的选择通常需要通过交叉验证来确定，过大的λ会导致模型欠拟合，而过小的λ则无法有效防止过拟合。此外，正则化技术不仅适用于线性模型，在神经网络等深度学习模型中也有广泛应用，如dropout技术本质上也是一种正则化方法。

1.1 过拟合问题

过拟合是机器学习中常见的问题，指模型在训练过程中过度拟合训练数据的细节和噪声，导致在训练集上准确率很高，但在未见过的测试数据上泛化能力较差。这种现象通常表现为训练误差和测试误差之间的巨大差距。

正则化是一种有效的技术来缓解过拟合问题，主要通过以下机制实现：

复杂度控制：正则化通过向损失函数添加惩罚项来限制模型的复杂度。例如：
- L1正则化（Lasso）倾向于产生稀疏权重
- L2正则化（Ridge）倾向于缩小所有权重
- 弹性网络（Elastic Net）结合了L1和L2
权重约束：常见的正则化方法包括：
- 早停（Early stopping）：在验证误差开始上升时终止训练
- 丢弃（Dropout）：随机忽略部分神经元
- 数据增强：增加训练数据的多样性
应用场景：
- 在深度学习中，Dropout常用于全连接层
- 在图像处理中，数据增强通过旋转、裁剪等操作增加样本
- 在特征选择中，L1正则化可以帮助筛选重要特征

例如，在使用逻辑回归模型时，添加L2正则化可以防止某些特征权重过大，从而改善模型在新数据上的表现。正则化系数λ的选择需要通过交叉验证来确定最佳值。

1.2 正则化的基本思想

在原始损失函数的基础上添加一个与模型参数相关的惩罚项：

J'(θ) = J(θ) + λR(θ)

其中：

J(θ)是原始损失函数
R(θ)是正则化项
λ是控制正则化强度的超参数

二、L2正则化（Ridge回归）

2.1 L2正则化原理

L2正则化通过在损失函数中添加模型参数的平方和（L2范数）作为惩罚项：

R(θ) = ½∑θᵢ²

特点：

使所有参数都较小但不为零
对异常值不敏感
可解决特征共线性问题

2.2 L2正则化的API使用

2.2.1 Scikit-learn中的Ridge

from sklearn.linear_model import Ridge"""
Ridge参数详解：
- alpha: 正则化强度，必须为正浮点数，值越大表示正则化越强
- fit_intercept: 是否计算截距，默认为True
- normalize: 是否在拟合前标准化数据（已弃用，建议使用StandardScaler）
- copy_X: 是否复制X，默认为True
- max_iter: 共轭梯度求解器的最大迭代次数
- tol: 解的精度
- solver: 求解器，可选'auto', 'svd', 'cholesky', 'lsqr', 'sparse_cg', 'sag', 'saga'
- random_state: 随机种子，当solver为'sag'或'saga'时使用
"""
ridge = Ridge(alpha=1.0, fit_intercept=True,max_iter=1000,tol=1e-4,solver='auto')# 示例：使用Ridge回归
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler# 加载数据
data = load_diabetes()
X, y = data.data, data.target# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)# 划分训练测试集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2)# 训练模型
ridge.fit(X_train, y_train)# 评估模型
train_score = ridge.score(X_train, y_train)
test_score = ridge.score(X_test, y_test)
print(f"训练集R²: {train_score:.3f}, 测试集R²: {test_score:.3f}")# 查看系数
print("模型系数:", ridge.coef_)

2.2.2 Keras中的L2正则化

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.regularizers import l2"""
l2参数：
- l: 正则化因子，控制正则化强度
"""
model = Sequential([Dense(64, activation='relu', kernel_regularizer=l2(0.01),  # 权重矩阵的L2正则化bias_regularizer=l2(0.01)),   # 偏置项的L2正则化Dense(1, activation='linear')
])model.compile(optimizer='adam', loss='mse')# 示例训练
# model.fit(X_train, y_train, epochs=10, batch_size=32)

三、L1正则化（Lasso回归）

3.1 L1正则化原理

L1正则化通过在损失函数中添加模型参数的绝对值之和（L1范数）作为惩罚项：

R(θ) = ∑|θᵢ|

特点：

可以产生稀疏解，即部分参数恰好为零
适用于特征选择
对异常值敏感

3.2 L1正则化的API使用

3.2.1 Scikit-learn中的Lasso

from sklearn.linear_model import Lasso"""
Lasso参数详解：
- alpha: 正则化强度，必须为正浮点数
- fit_intercept: 是否计算截距
- precompute: 是否预计算Gram矩阵加速计算
- copy_X: 是否复制X
- max_iter: 最大迭代次数
- tol: 优化的容忍度
- warm_start: 是否重用前一次的解作为初始化
- positive: 是否强制系数为正
- selection: 坐标下降的更新方式，'cyclic'或'random'
"""
lasso = Lasso(alpha=0.1,max_iter=10000,tol=1e-4,selection='cyclic')# 使用与Ridge相同的数据
lasso.fit(X_train, y_train)# 评估
train_score = lasso.score(X_train, y_train)
test_score = lasso.score(X_test, y_test)
print(f"训练集R²: {train_score:.3f}, 测试集R²: {test_score:.3f}")# 查看稀疏系数
print("模型系数:", lasso.coef_)
print("非零系数数量:", sum(lasso.coef_ != 0))

3.2.2 Keras中的L1正则化

from tensorflow.keras.regularizers import l1model = Sequential([Dense(64, activation='relu',kernel_regularizer=l1(0.01),  # 权重矩阵的L1正则化bias_regularizer=l1(0.01)),   # 偏置项的L1正则化Dense(1, activation='linear')
])model.compile(optimizer='adam', loss='mse')

四、弹性网络（Elastic Net）

弹性网络结合了L1和L2正则化：

R(θ) = α(ρ∑|θᵢ| + (1-ρ)½∑θᵢ²)

4.1 Scikit-learn中的ElasticNet

from sklearn.linear_model import ElasticNet"""
ElasticNet参数：
- alpha: 总正则化强度
- l1_ratio: L1正则化的比例，ρ=1为纯Lasso，ρ=0为纯Ridge
- 其他参数与Lasso类似
"""
elastic = ElasticNet(alpha=0.1, l1_ratio=0.5,  # 平衡L1和L2max_iter=10000)elastic.fit(X_train, y_train)# 评估
print(f"训练集R²: {elastic.score(X_train, y_train):.3f}")
print(f"测试集R²: {elastic.score(X_test, y_test):.3f}")
print("模型系数:", elastic.coef_)

五、正则化参数选择

5.1 交叉验证选择最佳参数

from sklearn.linear_model import LassoCV, RidgeCV# LassoCV自动交叉验证选择最佳alpha
lasso_cv = LassoCV(alphas=[0.001, 0.01, 0.1, 1.0, 10.0],  # 候选alpha值cv=5,  # 5折交叉验证max_iter=10000)
lasso_cv.fit(X_train, y_train)print(f"最佳alpha: {lasso_cv.alpha_:.4f}")
print(f"测试集R²: {lasso_cv.score(X_test, y_test):.3f}")# RidgeCV同理
ridge_cv = RidgeCV(alphas=[0.001, 0.01, 0.1, 1.0, 10.0],cv=5)
ridge_cv.fit(X_train, y_train)

5.2 正则化路径分析

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import lasso_path# 计算Lasso路径
alphas, coefs, _ = lasso_path(X_train, y_train, alphas=np.logspace(-3, 1, 100))# 绘制正则化路径
plt.figure(figsize=(10, 6))
plt.plot(np.log10(alphas), coefs.T)
plt.xlabel('log(alpha)')
plt.ylabel('系数值')
plt.title('Lasso正则化路径')
plt.show()