当前位置: 首页 > web >正文

【课堂笔记】核方法和Mercer定理

文章目录

  • Kernal
    • 引入
    • 定义
    • Mercer定理
      • 描述
      • 有限情形证明
      • 一般情形证明

Kernal

引入

  在实际数据中常常遇到不可线性分割的情况,此时通常需要将其映射到高维空间中,使其变得线性可分。例如二维数据:
在这里插入图片描述

通过映射 ϕ ( x 1 , x 2 ) = ( x 1 2 , 2 x 1 x 2 , x 2 2 ) \phi(x_1, x_2) = (x_1^2, \sqrt{2}x_1x_2, x_2^2) ϕ(x1,x2)=(x12,2 x1x2,x22),将数据投影到三维空间,下面展示的是一个二维投影(三维画不出来):
在这里插入图片描述
  于是我们可以找到一个超平面(如 x 1 2 + x 2 2 = c x_1^2 + x_2^2 = c x12+x22=c)来把两类数据分开。这种投影方法被称为显式投影法,即构造出一个函数 ϕ ( x ) \phi(x) ϕ(x)将数据从原始空间投影到高维空间。

  在一些模型中(如SVM),需要计算高维空间下数据点之间的内积 x 1 ⊤ x 2 x_1^\top x_2 x1x2,反映数据点之间的相似度。然而将数据点投影后再计算会产生许多时间花费和空间花费。那有没有什么方法能直接计算出内积,跳过投影的过程呢?~~有的兄弟,有的。~~于是核方法诞生了。

定义

  核方法(Kernel Methods)是一类机器学习算法,旨在通过将数据从原始空间隐式映射到高维特征空间来解决非线性问题,同时利用核函数高效计算特征空间中的内积,而无需显式计算高维特征向量。
  设输入空间为 X \mathcal{X} X,如下形式的函数称为核函数:
K : X × X → R \mathcal{K}: \mathcal{X} \times \mathcal{X} \to \mathbb{R} K:X×XR
满足其对应的Gram矩阵正定的半正定的,这保证了核函数在数学上定义了一个有效的内积空间。
  则这个核函数一定能写成某个高维空间的内积 K ( x , x ′ ) = ϕ ( x ) ⊤ ϕ ( x ′ ) \mathcal{K}(x,x') = \phi(x)^\top\phi(x') K(x,x)=ϕ(x)ϕ(x),这由Mercer定理支持。

Mercer定理

描述

  如果核函数 K : X × X → R \mathcal{K}: \mathcal{X} \times \mathcal{X} \to \mathbb{R} K:X×XR满足Mercer条件,即正定性,则存在一个映射 ϕ : X → H \phi: \mathcal{X} \to \mathcal{H} ϕ:XH,将 x x x映射到某个希尔伯特空间,使得:
K ( x , x ′ ) = ϕ ( x ) T ϕ ( x ′ ) \mathcal{K}(x, x') = \phi(x)^T\phi(x') K(x,x)=ϕ(x)Tϕ(x)

有限情形证明

先在有限数据集 { x 1 , . . . , x N } ⊂ X \set{x_1, ..., x_N} \subset \mathcal{X} {x1,...,xN}X上证明:由于 K \mathcal{K} K是对称正定矩阵,则可以分解为
K = U ⊤ Λ U Λ = diag  ( λ 1 , . . . , λ N ) , λ i ≥ 0 \mathcal{K} = U^\top\Lambda U \\ \Lambda = \text{diag }(\lambda_1, ..., \lambda_N), \lambda_i \ge 0 \\ K=UΛUΛ=diag (λ1,...,λN),λi0
U U U是正交矩阵, U ⊤ U = I U^\top U=I UU=I,列向量 u 1 , . . . , u N u_1, ..., u_N u1,...,uN是特征向量。
定义特征映射为 ϕ : X → R N \phi:\mathcal{X} \to \mathbb{R}^N ϕ:XRN为:
ϕ ( x i ) = Λ 1 / 2 u i \phi(x_i) = \Lambda^{1/2}u_i ϕ(xi)=Λ1/2ui
其中 Λ 1 / 2 = diag  ( λ 1 , . . . , λ N ) \Lambda^{1/2} = \text{diag }\left(\sqrt{\lambda_1}, ..., \sqrt{\lambda_N}\right) Λ1/2=diag (λ1 ,...,λN )
验证内积:
ϕ ( x i ) ⊤ ϕ ( x j ) = u i ⊤ Λ u j = K ( x i , x j ) \phi(x_i)^\top\phi(x_j) = u_i^\top \Lambda u_j = \mathcal{K}(x_i, x_j) ϕ(xi)ϕ(xj)=uiΛuj=K(xi,xj)
补充:若 K \mathcal{K} K的秩 r < N r < N r<N,(可能有零特征值),特征空间的维度可以降为 r r r,即只保留非零特征值对应的分量。
这证明了对于有限数据集,核函数可以通过特征分解构造一个有限维特征空间的内积。

一般情形证明

  为了严谨性,对于一般核函数 K ( x , x ′ ) \mathcal{K}(x, x') K(x,x),输入空间 X \mathcal{X} X可能是连续的(如 X = R d \mathcal{X} = \mathbb{R}^d X=Rd或紧致域),且核函数可能定义在无穷多点上。Mercer定理的完整形式需要函数空间的理论,特别是再生核希尔伯特空间(RKHS)
  假设:
(1) X \mathcal{X} X是紧致集
(2) K ( x , x ′ ) \mathcal{K}(x, x') K(x,x)是对称的、连续的,且满足Mercer条件(正定性)。
(3)正定性在连续情形下定义为:对于任意平方可积函数 f ∈ L 2 ( X ) f \in \mathcal{L}^2(\mathcal{X}) fL2(X),有:
∬ X × X f ( x ) K ( x , x ′ ) f ( x ′ ) d x d x ′ ≥ 0 \iint_{\mathcal{X} \times \mathcal{X}} f(x)\mathcal{K}(x, x')f(x')dxdx' \ge 0 X×Xf(x)K(x,x)f(x)dxdx0
  然后对 K \mathcal{K} K进行特征展开,核函数 K ( x , x ′ ) \mathcal{K}(x, x') K(x,x)作为一个对称正定算子,可以通过特征值分解表示。定义积分算子:
( T K f ) ( x ) = ∫ X K ( x , x ′ ) f ( x ′ ) d x ′ (T_Kf)(x) = \int_\mathcal{X}\mathcal{K}(x, x')f(x')dx' (TKf)(x)=XK(x,x)f(x)dx
T K T_K TK是一个紧致、自我伴随的算子(因为 K \mathcal{K} K对称且连续)。根据希尔伯特-施密特理论, T K T_K TK有可数个特征值 λ i ≥ 0 \lambda_i \ge 0 λi0和对应的特征函数 ψ i ( x ) \psi_i(x) ψi(x),满足:
T K ψ i = λ i ψ i , ∫ X K ( x , x ′ ) ψ i ( x ′ ) d x ′ = λ i ψ i T_K \psi_i = \lambda_i\psi_i, \int_\mathcal{X}\mathcal{K}(x, x')\psi_i(x')dx' = \lambda_i\psi_i TKψi=λiψi,XK(x,x)ψi(x)dx=λiψi
特征函数 { ψ i } \left\{\psi_i\right \} {ψi}构成了 L 2 ( X ) \mathcal{L}^2(\mathcal{X}) L2(X)的正交基,满足:
∫ X ψ i ( x ) ψ j ( x ) d x = δ i j \int_\mathcal{X}\psi_i(x)\psi_j(x)dx = \delta_{ij} Xψi(x)ψj(x)dx=δij
核函数可以表示为特征展开:
K ( x , x ′ ) = ∑ ∞ i = 1 λ i ψ i ( x ) ψ i ( x ′ ) \mathcal{K}(x,x') = \underset{i=1}{\overset{\infty}{\sum}}\lambda_i\psi_i(x)\psi_i(x') K(x,x)=i=1λiψi(x)ψi(x)
这一级数在 X × X \mathcal{X} \times \mathcal{X} X×X上均匀收敛(因为 K \mathcal{K} K连续且 X \mathcal{X} X紧致)

然后我们构造特征映射 ϕ : X → H \phi: \mathcal{X} \to \mathcal{H} ϕ:XH,其中 H \mathcal{H} H是希尔伯特空间(通常是 l 2 l^2 l2,无穷维序列空间),可以理解为无限维的欧几里得空间。
ϕ ( x ) = ( λ 1 ψ 1 ( x ) , λ 1 ψ 2 ( x ) , . . . ) \phi(x) = \left(\sqrt{\lambda_1}\psi_1(x), \sqrt{\lambda_1}\psi_2(x), ... \right) ϕ(x)=(λ1 ψ1(x),λ1 ψ2(x),...)
每个 ϕ ( x ) \phi(x) ϕ(x)是一个无穷序列,其分量为 λ i ψ i ( x ) \sqrt{\lambda_i}\psi_i(x) λi ψi(x)
H \mathcal{H} H中的内积定义为:
ϕ ( x ) ⊤ ϕ ( x ′ ) = ∑ ∞ i = 1 ( λ i ψ i ( x ) ) ( λ i ψ i ( x ′ ) ) = ∑ ∞ i = 1 λ i ψ i ( x ) ψ i ( x ′ ) = K ( x , x ′ ) \phi(x)^\top\phi(x') = \underset{i=1}{\overset{\infty}{\sum}}\left(\sqrt{\lambda_i}\psi_i(x)\right)\left(\sqrt{\lambda_i}\psi_i(x')\right)=\underset{i=1}{\overset{\infty}{\sum}}\lambda_i\psi_i(x)\psi_i(x') = \mathcal{K}(x,x') ϕ(x)ϕ(x)=i=1(λi ψi(x))(λi ψi(x))=i=1λiψi(x)ψi(x)=K(x,x)

http://www.xdnf.cn/news/7564.html

相关文章:

  • [Java实战]Spring Boot整合Sentinel:流量控制与熔断降级实战(二十九)
  • 数据集划分与格式转换:从原始数据到模型训练的关键步骤
  • 在 Excel 中使用通义灵码辅助开发 VBA 程序
  • 自学嵌入式 day21 - 数据结构 双向链表
  • 全局对比度调整
  • MCP 协议传输机制大变身:抛弃 SSE,投入 Streamable HTTP 的怀抱
  • taro 小程序 CoverImage Image src无法显示图片的问题
  • 剧本杀小程序:指尖上的沉浸式推理宇宙
  • 【Linux笔记】——线程同步信号量与环形队列生产者消费者模型的实现(PV操作)
  • shp2pgsql 导入 Shp 到 PostGIS 空间数据库
  • MATLAB中进行语音信号分析
  • Kotlin 协程 (一)
  • 对冲策略加仓止损盈思路
  • 数组的概述
  • 反射在spring boot自动配置的应用
  • Mysql 中的日期时间函数汇总
  • 2025ICPC南昌邀请赛题解
  • 基于规则引擎与机器学习的智能Web应用防火墙设计与实现
  • 【数据库课程设计】网上投票管理系统
  • 阿博图书馆管理系统 Java+Spring Boot+MySQL 实战项目分享
  • leetcode hot100:一、解题思路大全:技巧(只出现一次的数字、多数元素、颜色分类、下一个排列、寻找重复数)、矩阵(矩阵置零、螺旋矩阵、旋转图像、搜索二维矩阵Ⅱ)
  • ArkUI Tab组件开发深度解析与应用指南
  • setInterval和setTimeout的区别是什么
  • 【java第18集】java引用数据类型详解
  • Q-learning 算法学习
  • JUC入门(三)
  • FAL API分析
  • 工会考试怎么备考
  • 如何确保低空经济中的数据安全?
  • 斜齿轮直列齿轮箱市场分析报告:驱动因素、挑战及前景预测