当前位置：首页 > java >正文

机器学习算法核心总结

java 2025/8/21 8:17:49

引言

机器学习算法是人工智能的核心工具，但面对众多模型时，如何快速掌握其核心逻辑、关键参数与应用场景？本文在经典框架基础上，补充每个算法的核心知识点、关键参数、常见问题及调参技巧，帮助读者从“知道”到“精通”。

一、监督学习：从标签中“学习”规律

1. 回归算法

线性回归（Linear Regression）

核心知识点：

数学形式： $y = w^Tx + b$ ，目标是最小化均方误差（MSE）损失： $\frac{1}{N}\sum_{i=1}^N (y_i - (w^Tx_i + b))^2$ 。
求解方法：最小二乘法（闭式解，当 $X^TX$ 满秩时可逆）或梯度下降（适用于大数据）。
假设检验：通过t检验判断系数 $w$ 是否显著非零（ $H_0: w=0$ ），用于特征重要性初步筛选。

核心参数：

无显式超参数（基础版），但可通过正则化扩展（见岭回归）。

注意事项：

对异常值敏感（平方项放大误差），需先做数据清洗；
特征需标准化（否则系数大小无法直接比较重要性）；
多重共线性会导致系数估计方差大（可用VIF方差膨胀因子检测）。

岭回归（Ridge Regression）与Lasso

核心知识点：

岭回归：在MSE损失中加入L2正则项 $α∥w∥2\alpha\|w\|^2$ ，解决多重共线性（ $X^TX$ 非满秩时仍可解）；
Lasso：加入L1正则项 $α∥w∥1\alpha\|w\|_1$ ，利用L1范数的稀疏性自动筛选特征（部分系数变为0）；
弹性网络（Elastic Net）：结合L1与L2正则，平衡特征选择与系数平滑。

核心参数：

$α\alpha$ （正则化强度）： $α\alpha$ 越大，模型越简单（防止过拟合）；通过交叉验证（如GridSearchCV）选择最优值。

注意事项：

岭回归系数非零，无法直接做特征选择；Lasso更适合高维稀疏数据（如文本）；
正则化对特征尺度敏感，需先标准化特征（否则大尺度特征主导正则项）。

2. 分类算法

逻辑回归（Logistic Regression）

核心知识点：

数学形式：通过Sigmoid函数 $σ(z)=11+e−z\sigma(z) = \frac{1}{1+e^{-z}}$ 将线性输出 $z=w^Tx+b$ 映射到概率 $\sigma(z)$ ；
损失函数：交叉熵损失 $-\frac{1}{N}\sum_{i=1}^N [y_i\log(p_i) + (1-y_i)\log(1-p_i)]$ ；
正则化：与线性回归类似，可通过L1/L2正则控制复杂度。

核心参数：

$C$ （正则化强度的倒数）： $C$ 越小，正则化越强（sklearn中默认 $L 2$ 正则）；
penalty：选择l1或l2正则；
class_weight：调整类别权重（如处理不平衡数据，设置balanced自动按类别频率反比加权）。

注意事项：

对非线性关系需手动构造特征（如多项式项、交互项）；
特征需标准化（否则梯度下降收敛慢）；
类别不平衡时，需结合class_weight或过采样（SMOTE）。

支持向量机（SVM）

核心知识点：

硬间隔SVM：寻找最大间隔超平面，数学形式为 $max⁡w,b2∥w∥\max_{w,b} \frac{2}{\|w\|}$ ，约束 $yi(wTxi+b)≥1y_i(w^Tx_i + b) \geq 1$ ；
软间隔SVM：引入松弛变量 $ξi≥0\xi_i \geq 0$ ，允许部分样本违反约束，损失函数为 $12∥w∥2+C∑ξi\frac{1}{2}\|w\|^2 + C\sum\xi_i$ （ $C$ 为惩罚参数）；
核技巧：通过核函数 $k(xi,xj)=ϕ(xi)Tϕ(xj)k(x_i,x_j) = \phi(x_i)^T\phi(x_j)$ 将低维数据映射到高维空间，常用核函数：
- 线性核（无映射，适用于线性可分）；
- 多项式核（ $k(x_i,x_j)=(x_i^Tx_j + c)^d$ ， $d$ 为阶数）；
- RBF核（径向基函数， $k(xi,xj)=exp⁡(−γ∥xi−xj∥2)k(x_i,x_j)=\exp(-\gamma\|x_i - x_j\|^2)$ ， $γ\gamma$ 控制核宽度）。

核心参数：

$C$ （惩罚参数）： $C$ 越大，对错误样本惩罚越重（易过拟合）；
$γ\gamma$ （仅RBF核）： $γ\gamma$ 越大，模型越关注局部样本（易过拟合）；
kernel：选择核函数类型；
degree（多项式核）：阶数 $d$ （通常取2-3，高阶易过拟合）。

注意事项：

计算复杂度高（ $O(N^3)$ ），不适用于大规模数据（ $N>10^5$ 时推荐线性SVM）；
核函数选择依赖经验（RBF核是最常用的通用选择）；
需标准化特征（核函数对尺度敏感）。

决策树与集成树模型

决策树（Decision Tree）

核心知识点：

分裂准则：
- ID3：信息增益（ $\sum_{v=1}^V \frac{|D_v|}{|D|}Entropy(D_v)$ ）；
- C4.5：信息增益比（解决ID3对取值多的特征偏好， $\frac{Gain(D,A)}{IV(A)}$ ， $I V (A)$ 为特征A的固有值）；
- CART：基尼系数（ $\sum_{k=1}^K p_k^2$ ，分裂后 $\frac{|D_1|}{|D|}Gini(D_1) + \frac{|D_2|}{|D|}Gini(D_2)$ ）。
剪枝：预剪枝（提前停止分裂，如限制树深度） vs 后剪枝（生成完整树后剪去冗余分支，如错误率降低剪枝）。

核心参数（以CART为例）：

max_depth：树的最大深度（限制过拟合，常用调参）；
min_samples_split：节点分裂所需最小样本数（默认2，增大可防止过拟合）；
min_samples_leaf：叶子节点最小样本数（默认1，增大可平滑模型）；
ccp_alpha：代价复杂度参数（控制剪枝力度，越大树越简单）。

注意事项：

单棵决策树易过拟合（需剪枝或集成）；
对缺失值和类别特征友好（如C4.5支持缺失值处理，CART支持类别特征）；
特征重要性可通过分裂时的信息增益或基尼系数减少量计算。

随机森林（Random Forest）

核心知识点：

Bagging集成：并行训练多棵决策树（基学习器），每棵树基于随机采样数据子集（自助采样，Bootstrap）和随机采样特征子集（如 $n\sqrt{n}$ 个特征）；
预测规则：分类投票，回归平均；
OOB样本（Out-of-Bag）：未被选中的样本（约36.8%），可用于无验证集的泛化误差估计。

核心参数：

n_estimators：树的数量（越多模型越稳定，计算成本越高，默认100）；
max_features：每棵树分裂时的特征子集大小（可选sqrt、log2或固定值，影响多样性）；
max_depth：单棵树的最大深度（同决策树）；
oob_score：是否使用OOB样本评估（默认False，开启可节省验证时间）。

注意事项：

对高维稀疏数据（如文本）效果可能不如线性模型；
可解释性差（无法直接可视化全局规则）；
计算成本较高（需并行化加速，sklearn中n_jobs=-1使用所有CPU）。

梯度提升树（GBT，以XGBoost为例）

核心知识点：

Boosting集成：串行训练弱学习器（通常为CART树），每棵树纠正前序模型的残差（或损失函数的梯度）；
目标函数： $Obj(θ)=∑i=1Nl(yi,y^i)+∑k=1KΩ(fk)Obj(\theta) = \sum_{i=1}^N l(y_i, \hat{y}_i) + \sum_{k=1}^K \Omega(f_k)$ ，其中 $Ω(fk)=γT+12λ∥w∥2\Omega(f_k) = \gamma T + \frac{1}{2}\lambda\|w\|^2$ 为正则项（ $T$ 为叶子节点数， $w$ 为叶子权重）；
优化方法：二阶泰勒展开近似损失函数，贪心算法寻找最优分裂（类似决策树，但加入正则项）。

核心参数：

learning_rate（ $η\eta$ ）：学习率（收缩每棵树的贡献，防止过拟合，默认0.3）；
n_estimators：树的数量（需与学习率权衡，常用“早停法”确定最优值）；
max_depth：单棵树的最大深度（默认6，小深度可防过拟合）；
subsample：样本子采样比例（默认1，小于1增加随机性）；
colsample_bytree：特征子采样比例（默认1，类似随机森林的特征随机）；
reg_lambda（ $λ\lambda$ ）：权重正则化系数（默认1）；
reg_alpha（ $α\alpha$ ）：叶子节点数正则化系数（默认0）。

注意事项：

对缺失值自动处理（分裂时计算左右子树的损失，选择最优方向）；
计算效率高（基于直方图的近似分裂，如LightGBM进一步优化）；
超参数敏感（需调参优化，推荐使用Optuna、Hyperopt等工具）。

3. 其他监督学习算法

K近邻（KNN）

核心知识点：

距离度量：欧氏距离（ $d(x,y)=∑(xi−yi)2d(x,y)=\sqrt{\sum(x_i-y_i)^2}$ ）、曼哈顿距离（ $d(x,y)=∑∣xi−yi∣d(x,y)=\sum|x_i-y_i|$ ）、余弦相似度（ $cos⁡θ=xTy∥x∥∥y∥\cos\theta = \frac{x^Ty}{\|x\|\|y\|}$ ）；
投票策略：分类用多数投票，回归用均值；加权投票（距离越近权重越高， $wi=1d(x,xi)+ϵw_i = \frac{1}{d(x,x_i)+\epsilon}$ ）。

核心参数：

n_neighbors（K值）：K太小易过拟合（噪声敏感），太大易欠拟合（平滑过度）；通过交叉验证或肘部法选择；
weights：uniform（等权）或distance（距离加权）；
p：距离度量的幂次（ $p = 1$ 曼哈顿， $p = 2$ 欧氏）。

注意事项：

计算复杂度高（ $O (N)$ 预测时间），不适用于大规模数据（可结合KD树、球树优化，但高维失效）；
高维数据需降维（如PCA）或特征选择（缓解维度灾难）；
特征需标准化（否则尺度大的特征主导距离计算）。

朴素贝叶斯（Naive Bayes）

核心知识点：

贝叶斯定理： $\frac{P(X=x|Y=k)P(Y=k)}{P(X=x)}$ ，其中 $P (X = x ∣ Y = k)$ 由“朴素”假设（特征条件独立）分解为 $∏i=1nP(Xi=xi∣Y=k)\prod_{i=1}^n P(X_i=x_i|Y=k)$ ；
常见变体：
- 高斯朴素贝叶斯（连续特征，假设 $P(Xi=xi∣Y=k)∼N(μk,i,σk,i2)P(X_i=x_i|Y=k) \sim N(\mu_{k,i}, \sigma_{k,i}^2)$ ）；
- 多项式朴素贝叶斯（文本计数特征，用多项式分布建模）；
- 伯努利朴素贝叶斯（二值特征，用伯努利分布建模）。

核心参数：

alpha（拉普拉斯平滑参数）：防止类别或特征的条件概率为0（默认1.0，越大平滑越强）；
fit_prior：是否学习类别先验概率（默认True，否则用均匀分布）。

注意事项：

“朴素”假设常不成立（特征间可能存在依赖），但实际中仍能取得不错效果（如文本分类）；
对输入特征分布敏感（如高斯朴素贝叶斯假设正态分布）；
适用于小样本、高维数据（如垃圾邮件过滤）。

二、无监督学习：从数据中“发现”结构

1. 聚类算法

K-means

核心知识点：

目标函数（类内平方和）： $\sum_{k=1}^K \sum_{x_i \in C_k} \|x_i - \mu_k\|^2$ ，其中 $μk\mu_k$ 为簇 $C_k$ 的均值；
优化步骤（Lloyd算法）：初始化中心→分配样本到最近中心→更新中心→重复至收敛；
K-means++：改进初始化（后续中心与已选中心尽可能远），减少迭代次数。

核心参数：

n_clusters（K值）：通过肘部法（SSE随K变化的拐点）或轮廓系数（ $\frac{b(i)-a(i)}{\max(a(i),b(i))}$ ， $a (i)$ 为样本i到同簇其他样本的平均距离， $b (i)$ 为到最近异簇样本的平均距离）选择；
init：k-means++（默认）或random（随机初始化）；
max_iter：最大迭代次数（默认300）。

注意事项：

对初始中心敏感（K-means++可缓解）；
无法处理非凸形状簇（如环形）；
需标准化特征（否则尺度大的特征主导距离计算）。

DBSCAN

核心知识点：

核心概念：
- ε-邻域：样本 $x$ 的ε-邻域为 ${y∣∥x−y∥≤ε}\{y | \|x-y\| \leq \varepsilon\}$ ；
- 核心对象：ε-邻域内样本数≥min_samples；
- 密度直达：若 $x$ 是核心对象， $y$ 在 $x$ 的ε-邻域内，则 $y$ 由 $x$ 密度直达；
- 密度可达：通过一系列密度直达样本连接；
算法流程：标记核心对象→从核心对象出发扩展簇→未访问的非核心对象标记为噪声。

核心参数：

eps（ε）：邻域半径（关键参数，可通过k-distance图确定：计算每个样本到第k近邻的距离，排序后找拐点）；
min_samples：核心对象的最小邻域样本数（默认min_samples=2*维度）；
metric：距离度量（默认欧氏距离，文本可用余弦相似度）。

注意事项：

对密度差异大的数据效果差（如同时存在密集簇和稀疏簇）；
高维数据中距离度量失效（需降维或使用特定度量）；
噪声点需结合业务场景处理（如异常检测）。

2. 降维算法

PCA（主成分分析）

核心知识点：

数学原理：通过正交变换将原始特征 $x$ 投影到主成分 $z = W^Tx$ ，其中 $W$ 的列是协方差矩阵 $Σ=1NXTX\Sigma = \frac{1}{N}X^TX$ 的特征向量，特征值 $λi\lambda_i$ 表示主成分的方差贡献；
方差解释率：前k个主成分的累计方差贡献率 $∑i=1kλi∑i=1dλi\frac{\sum_{i=1}^k \lambda_i}{\sum_{i=1}^d \lambda_i}$ （通常保留80%-95%）；
核PCA：通过核函数处理非线性数据（如RBF核）。

核心参数：

n_components：保留的主成分数量（可设为整数、浮点数（方差解释率阈值）或mle（自动选择））；
svd_solver：奇异值分解求解器（auto、full、arpack、randomized，大数据推荐randomized）。

注意事项：

仅捕捉线性关系（非线性结构需用核PCA或t-SNE）；
对异常值敏感（需先做异常检测）；
主成分无明确物理意义（仅用于降维）。

t-SNE

核心知识点：

目标函数：最小化高维空间与低维空间的KL散度（ $\sum_{i\neq j} p_{ij}\log\frac{p_{ij}}{q_{ij}}$ ），其中 $p_{ij}$ 为高维空间中样本i,j的相似性（基于t分布）， $q_{ij}$ 为低维空间的相似性；
困惑度（Perplexity）： $Perp(P_i) = 2^{H(P_i)}$ ， $H(P_i)$ 为样本i的条件熵，控制邻域大小的平滑度（常用5-50，默认30）。

核心参数：

perplexity：困惑度（关键参数，影响局部与全局结构的平衡）；
n_iter：最大迭代次数（默认1000，需足够大以收敛）；
learning_rate：学习率（默认200，过大易发散，过小收敛慢）。

注意事项：

计算复杂度高（ $O(N^2)$ ），仅适用于小样本（ $N<10^4$ ）；
结果具有随机性（需多次运行取平均）；
不可逆（低维到高维无法还原）。

三、半监督学习与强化学习：拓展传统边界

1. 半监督学习

核心知识点：

自训练（Self-training）：用标签数据训练模型→预测无标签数据→选择高置信度样本加入标签数据→迭代训练；
图半监督（Label Propagation）：构建样本相似性图（边权重 $Wij=exp⁡(−∥xi−xj∥22σ2)W_{ij} = \exp(-\frac{\|x_i-x_j\|^2}{2\sigma^2})$ ），通过迭代更新标签概率（ $f(t+1)=αD−1Wf(t)+(1−α)yf^{(t+1)} = \alpha D^{-1}W f^{(t)} + (1-\alpha)y$ ， $D$ 为度矩阵， $y$ 为初始标签）。

注意事项：

自训练可能放大噪声（需设置严格的置信度阈值）；
图半监督的边权重计算耗时（大规模数据需近似）。

2. 强化学习

核心知识点：

马尔可夫决策过程（MDP）：状态 $s$ 、动作 $a$ 、奖励 $r$ 、转移概率 $P (s^{'} ∣ s, a)$ 、折扣因子 $γ\gamma$ ；
Q-learning：离线策略，更新 $\leftarrow Q(s,a) + \alpha[r + \gamma\max_{a'}Q(s',a') - Q(s,a)]$ ；
策略梯度（REINFORCE）：通过蒙特卡洛估计梯度 $∇θJ(θ)≈E[∑t∇θlog⁡πθ(at∣st)Rt]\nabla_\theta J(\theta) \approx \mathbb{E}[\sum_t \nabla_\theta \log \pi_\theta(a_t|s_t) R_t]$ ；
DQN（深度Q网络）：用神经网络近似 $Q$ 函数，结合经验回放（Experience Replay）和目标网络（Target Network）稳定训练。