当前位置：首页 > java >正文

支持向量机核心知识总结

java 2025/8/27 14:59:46

核心目标：在样本空间中找到划分超平面，将不同类别样本分开，且该超平面对训练样本局部扰动的 “容忍性” 最优（即抗干扰能力强）。
超平面定义
- 超平面是 n 维空间中的 n-1 维子空间，是 SVM 分类的核心依据：
  - 3 维空间中，超平面为 2 维平面；2 维空间中，超平面为 1 维直线。
  - 数学表达式：wTx+b=0，其中w是 n 维向量（超平面法向量），b是实数（超平面截距），x是样本向量。
关键指标：Margin（间隔）与支持向量
- Margin（间隔）：两类样本中距离超平面最近的点到超平面距离的 2 倍（Margin=2d，d为最近点到超平面的距离），SVM 的核心优化目标是最大化 Margin，以提升模型泛化能力。
- 支持向量：距离超平面最近的样本点，是决定超平面位置的关键样本，其他样本对超平面无影响。
样本标签与决策方程
- 样本标签：正例标注为y=+1，负例标注为y=−1，便于后续约束条件推导。
- 决策方程：y(x)=w⋅Φ(x)+b，其中Φ(x)是样本x的特征映射（用于解决低维不可分问题，后续详细说明），若y(x)>0预测为正例，y(x)<0预测为负例。

初始目标：最大化间隔Margin=2d，等价于最大化单个最近点到超平面的距离d。
点到超平面距离公式：n 维空间中，样本x到超平面wTx+b=0的距离为d=wTw∣wTx+b∣。
约束条件简化：通过对w和b进行放缩变换，使所有样本满足yi⋅(w⋅Φ(xi)+b)≥1（保证所有样本在超平面 “正确一侧”，且支持向量满足等号yi⋅(w⋅Φ(xi)+b)=1）。
目标函数转换：最大化d=wTw1（由距离公式及约束条件推导），等价于最小化21wTw（将极大值问题转化为更易求解的极小值问题，且平方项可简化计算）。

优化问题形式
- 目标函数（极小化）：minw,b21wTw
- 约束条件（不等式）：yi⋅(w⋅Φ(xi)+b)≥1（i=1,2,...,n，n为样本数）
拉格朗日函数构建：引入拉格朗日乘子αi≥0，将带约束优化转化为无约束优化，函数形式为：L(w,b,α)=21wTw−∑i=1nαi[yi⋅(w⋅Φ(xi)+b)−1]
求解关键条件：对w和b求偏导并令其等于 0，得到核心等式：
- w=∑i=1nαiyiΦ(xi)（w由支持向量的αi、yi和Φ(xi)决定）
- ∑i=1nαiyi=0（αi的约束条件）
对偶问题转化：将w的表达式代入拉格朗日函数，原问题转化为对偶问题 ——最大化∑i=1nαi−21∑i=1n∑j=1nαiαjyiyjΦ(xi)TΦ(xj)，约束条件为∑i=1nαiyi=0且αi≥0。

问题背景：现实数据常存在噪声，硬间隔（要求所有样本满足yi⋅(w⋅Φ(xi)+b)≥1）会导致超平面划分效果差。
解决方案：引入松弛因子ξi
- 调整约束条件：yi⋅(w⋅Φ(xi)+b)≥1−ξi（ξi≥0，ξi越大，允许样本偏离 “理想位置” 越多）。
- 调整目标函数：minw,b,ξ21wTw+C∑i=1nξi，其中C是惩罚参数：
  - C趋近于极大值：惩罚强，不允许样本偏离，等价于硬间隔。
  - C趋近于极小值：惩罚弱，允许更多样本偏离，避免过拟合。
软间隔对偶求解：约束条件变为0≤αi≤C（原硬间隔αi≥0），其余求解逻辑与硬间隔一致。

问题背景：部分数据在低维空间中无法用线性超平面分离（如环形分布数据）。
核心思路：通过特征映射Φ(x)将低维输入空间的样本映射到高维特征空间，使数据在高维空间中线性可分。
核函数：避免高维计算灾难
- 问题：高维空间中计算Φ(xi)TΦ(xj)（内积）复杂度极高（如 3 维映射到 9 维，复杂度为O(n2)）。
- 解决方案：引入核函数K(xi,xj)=Φ(xi)TΦ(xj)，直接在低维空间计算，等价于高维空间内积，降低计算成本。
常见核函数
- 线性核函数：适用于线性可分数据，K(xi,xj)=xiTxj。
- 高斯核函数（RBF 核）：适用于非线性可分数据，能将数据映射到无限维空间，K(xi,xj)=exp(−2σ2∥xi−xj∥2)（σ为带宽参数，影响核函数平滑度）。