当前位置: 首页 > ops >正文

TKDE-2022《Low-Rank Linear Embedding for Robust Clustering》


2. 核心思想

这篇论文的核心思想是提出一种名为 RCLR (Robust Clustering with Low-Rank Linear Embedding)端到端(end-to-end)鲁棒聚类方法。

传统的聚类方法(如k-means)通常面临两个主要问题:

  1. 两阶段框架的局限性:先降维再聚类,两个阶段独立优化,前一阶段的最优结果未必是后一阶段的最佳初始化,导致整体性能受损。
  2. 样本外问题 (Out-of-sample problem):训练好的模型无法直接处理新出现的、未参与训练的样本。

为了解决这些问题,RCLR方法的核心思想是将聚类、降维、低秩表示和局部流形结构保持等多个目标无缝集成到一个统一的模型中。具体来说:

  • 显式投影机制:通过一个投影矩阵 AAA,将原始高维数据 XXX 和聚类中心 VVV 同时投影到一个低维子空间。这不仅实现了降维,还解决了样本外问题(新样本 xox_oxo 可通过 xoAx_oAxoA 投影并聚类)。
  • 低秩嵌入:在投影后的空间中,利用低秩表示来捕捉数据的全局结构信息,增强模型对噪声和异常值的鲁棒性。
  • 局部结构保持:通过一个自适应的亲和力矩阵 WWW,在目标函数中加入约束项,以保持数据点的局部邻域属性
  • 端到端学习:所有组件(投影矩阵 AAA、聚类指示矩阵 DDD、聚类中心 VVV 等)在同一个优化框架下联合学习,确保了整个流程的最优性。

总而言之,RCLR旨在通过一个统一的、端到端的框架,同时实现鲁棒的聚类、有效的降维和良好的泛化能力。


3. 目标函数

论文的目标函数(公式6)是整个方法的数学核心,它将多个学习目标融合在一起。其形式如下:

min⁡D,V,ZJRCLR=∥XZ−DVZ∥2,1+γ∑ij∥xi−xjZ∥2,1wij+λ∥Z∥2,1,s.t.:rank(Z)≤r \min_{D,V,Z} J_{RCLR} = \|XZ - DVZ\|_{2,1} + \gamma \sum_{ij} \|x_i - x_j Z\|_{2,1} w_{ij} + \lambda \|Z\|_{2,1}, \quad \text{s.t.}: \text{rank}(Z) \leq r D,V,ZminJRCLR=XZDVZ2,1+γijxixjZ2,1wij+λZ2,1,s.t.:rank(Z)r

其中:

  • X∈Rn×mX \in \mathbb{R}^{n \times m}XRn×mnnn 个样本、mmm 维特征的原始数据矩阵。
  • Z∈Rm×rZ \in \mathbb{R}^{m \times r}ZRm×r 是一个关键的投影矩阵(文中也用 AAA 表示,ZZZAAA 是同一个东西),其秩 rank(Z)≤r\text{rank}(Z) \leq rrank(Z)r 确保了降维到 rrr 维(r≪mr \ll mrm)。
  • D∈Rn×kD \in \mathbb{R}^{n \times k}DRn×k聚类指示矩阵,通常为0-1矩阵,表示每个样本属于哪个簇。
  • V∈Rk×rV \in \mathbb{R}^{k \times r}VRk×r 是在低维空间中的聚类中心矩阵(原型)。
  • ∥⋅∥2,1\| \cdot \|_{2,1}2,1L2,1L_{2,1}L2,1-范数,对行取L2L_2L2范数,再对所有行取L1L_1L1范数。它对异常值(离群点)不敏感,增强了模型的鲁棒性
  • wijw_{ij}wij 是亲和力矩阵 WWW 的元素,表示样本 iiijjj 之间的相似度。
  • γ\gammaγλ\lambdaλ 是平衡各项重要性的超参数

目标函数的三个组成部分解析

  1. ∥XZ−DVZ∥2,1\|XZ - DVZ\|_{2,1}XZDVZ2,1:这是核心的聚类项。XZXZXZ 是将原始数据投影到低维空间的结果,DVZDVZDVZ 是聚类中心在低维空间的表示。该项衡量了所有样本到其对应聚类中心的距离总和,目标是使其最小化,实现有效聚类。
  2. γ∑ij∥xi−xjZ∥2,1wij\gamma \sum_{ij} \|x_i - x_j Z\|_{2,1} w_{ij}γijxixjZ2,1wij:这是局部结构保持项。它鼓励在原始空间中相似的样本(wijw_{ij}wij 大),在投影后的低维空间中也保持相近的距离(∥xiZ−xjZ∥2,1\|x_i Z - x_j Z\|_{2,1}xiZxjZ2,1 小)。这有助于保留数据的局部流形结构。
  3. λ∥Z∥2,1\lambda \|Z\|_{2,1}λZ2,1:这是正则化项L2,1L_{2,1}L2,1-范数正则化倾向于产生行稀疏的投影矩阵 ZZZ,这意味着某些原始特征对最终的低维表示贡献为零,从而实现了特征选择,增强了模型的可解释性和鲁棒性。

4. 目标函数的优化过程

由于目标函数包含多个变量且相互耦合,直接求解困难。论文采用交替优化(Alternating Optimization)策略,即固定其他变量,迭代地优化其中一个变量。根据文中的算法流程,优化过程如下:

  1. 初始化:首先,利用原始数据 XXX 通过k-means等方法初始化聚类中心 VVV 和聚类指示矩阵 DDD。然后,根据 DDDVVV 初始化投影矩阵 ZZZ (或 AAA)。

  2. 迭代优化:在每一次迭代中,依次优化以下变量:

    • 优化 BBB (或 Φ\PhiΦ):文中提到优化 BBB,这通常与计算亲和力矩阵 WWW 或其相关矩阵有关。根据公式推导,BBB 的优化涉及计算 Φ=(ATXTW~XA+λI)−1\Phi = (A^T X^T \tilde{W} X A + \lambda I)^{-1}Φ=(ATXTW~XA+λI)1 等步骤,其中 W~\tilde{W}W~WWW 相关。这是一个中间变量,用于后续 AAA 的更新。
    • 优化 AAA (即 ZZZ):这是最关键的一步。在固定 D,V,BD, V, BD,V,B 后,优化投影矩阵 AAA。根据文中描述,这一步依赖于特征值分解(eigendecomposition)。具体来说,最优的 AAA 通常是某个矩阵(如 Φ−1ATXTW~X\Phi^{-1} A^T X^T \tilde{W} XΦ1ATXTW~X)的前 rrr 个最大特征值对应的特征向量。这个过程将数据投影到能最好地满足聚类和局部保持目标的低维子空间。
    • 优化 DDD:在固定 A,VA, VA,V 后,DDD 的更新等价于一个标准的k-means聚类步骤。对于每个样本 xix_ixi,计算其在低维空间 xiAx_i AxiA 到所有聚类中心 vkAv_k AvkA 的距离,并将其分配给距离最近的簇。即 j=arg⁡min⁡k∥xiA−vkA∥2j = \arg\min_k \|x_i A - v_k A\|_2j=argminkxiAvkA2
    • 优化 VVV:在固定 A,DA, DA,D 后,聚类中心 VVV 的更新是其对应簇内所有样本在低维空间投影的均值。
  3. 收敛:重复上述步骤,直到目标函数 JRCLRJ_{RCLR}JRCLR 的值变化小于预设阈值,或达到最大迭代次数。文中提到,RCLR算法通常能在少数几次迭代内收敛。


5. 主要贡献点

根据论文的摘要和引言部分,其主要贡献可以总结为以下四点:

  1. 提出了一个端到端的鲁棒聚类框架 (RCLR):将聚类、降维、低秩表示和局部结构保持集成到一个统一模型中,克服了传统两阶段方法的局限性。
  2. 解决了样本外问题:通过显式的线性投影机制 AAA,新样本可以直接通过 xoAx_o AxoA 投影到低维空间并进行聚类,无需重新训练整个模型。
  3. 增强了模型的鲁棒性:在整个模型中使用L2,1L_{2,1}L2,1-范数作为损失和正则化项,有效降低了噪声和异常值对聚类结果的影响。
  4. 实现了特征选择L2,1L_{2,1}L2,1-范数正则化使得投影矩阵 ZZZ 具有行稀疏性,自动选择对聚类任务最重要的特征。

6. 算法实现过程详解

基于上述分析,RCLR算法的实现过程可以详细描述如下:

输入:原始数据矩阵 X∈Rn×mX \in \mathbb{R}^{n \times m}XRn×m,簇的数量 kkk,降维维度 rrr,超参数 γ,λ\gamma, \lambdaγ,λ

输出:聚类结果(聚类指示矩阵 DDD),投影矩阵 AAA

步骤

  1. 初始化

    • XXX 进行k-means聚类,得到初始的聚类中心 V(0)∈Rk×mV^{(0)} \in \mathbb{R}^{k \times m}V(0)Rk×m 和聚类指示矩阵 D(0)D^{(0)}D(0)
    • 计算初始的投影矩阵 A(0)A^{(0)}A(0)。这可以通过对 XXX 进行PCA降维到 rrr 维,取前 rrr 个主成分作为 A(0)A^{(0)}A(0) 的列向量。
  2. 迭代循环(令 ttt 为迭代次数,从1开始):

    • Step 1: 更新亲和力矩阵 WWW。根据当前的聚类结果 D(t−1)D^{(t-1)}D(t1) 或投影后的数据 XA(t−1)X A^{(t-1)}XA(t1),计算一个自适应的亲和力矩阵 WWW,衡量样本间的局部相似性。
    • Step 2: 更新中间变量 BBB (或 Φ\PhiΦ)。根据当前的 A(t−1)A^{(t-1)}A(t1)WWW,计算 Φ=(A(t−1)TXTW~XA(t−1)+λI)−1\Phi = (A^{(t-1)T} X^T \tilde{W} X A^{(t-1)} + \lambda I)^{-1}Φ=(A(t1)TXTW~XA(t1)+λI)1
    • Step 3: 更新投影矩阵 AAA。求解一个广义特征值问题,找到矩阵 Φ−1A(t−1)TXTW~X\Phi^{-1} A^{(t-1)T} X^T \tilde{W} XΦ1A(t1)TXTW~X 的前 rrr 个最大特征值对应的特征向量,将这些特征向量按列排列构成新的投影矩阵 A(t)A^{(t)}A(t)
    • Step 4: 更新聚类指示矩阵 DDD。将所有样本投影到低维空间:Y=XA(t)Y = X A^{(t)}Y=XA(t)。对 YYY 执行k-means聚类,得到新的聚类分配结果 D(t)D^{(t)}D(t)
    • Step 5: 更新聚类中心 VVV。根据新的聚类结果 D(t)D^{(t)}D(t),计算每个簇在低维空间 YYY 中的均值,得到新的聚类中心 V(t)V^{(t)}V(t)
    • Step 6: 收敛判断。计算当前目标函数值 JRCLR(t)J_{RCLR}^{(t)}JRCLR(t),并与上一次的值 JRCLR(t−1)J_{RCLR}^{(t-1)}JRCLR(t1) 比较。如果差值小于阈值 ϵ\epsilonϵ,则停止迭代;否则,t=t+1t = t + 1t=t+1,返回 Step 1。
  3. 输出结果

    • 最终的聚类结果由 D(t)D^{(t)}D(t) 给出。
    • 最终的投影矩阵为 A(t)A^{(t)}A(t)

对于新样本 xox_oxo 的处理(解决样本外问题)
当有一个新的样本 xo∈R1×mx_o \in \mathbb{R}^{1 \times m}xoR1×m 需要聚类时,无需重新训练模型。只需:

  1. 将其投影到已学习的低维空间:yo=xoA(t)y_o = x_o A^{(t)}yo=xoA(t)
  2. 计算 yoy_oyo 与所有已学习的聚类中心 V(t)V^{(t)}V(t) 的距离。
  3. 将其分配给距离最近的簇:j=arg⁡min⁡k∥yo−vk(t)∥2j = \arg\min_k \|y_o - v_k^{(t)}\|_2j=argminkyovk(t)2

这个过程高效且实用,是RCLR方法的一大优势。

http://www.xdnf.cn/news/19513.html

相关文章:

  • Element-Plus 入门指南
  • 【3D通用视觉框架】基于Qt5开发的3D视觉框架软件,纯底层,全套源码,开箱即用
  • R语言根据经纬度获得对应样本的省份
  • PCB设计规范
  • redis-----java客户端
  • K8s集群+Rancher Server:部署DolphinScheduler 3.2.2集群
  • 【vue2】vue2.7x的项目中集成tailwind.css真的不要太香
  • GPT-5在医疗领域应用的研究效能初探(上)
  • Elasticsearch赋能3D打印机任务统计分析
  • 【图像处理基石】图像预处理方面有哪些经典的算法?
  • 聚铭网络实力蝉联数说安全“2025年中国网络安全市场100强”
  • 【C++游记】红黑树
  • Lombok 实用注解深度解析!
  • 【项目】多模态RAG—本地部署MinerU实现多类文档解析
  • 懒加载详细讲解
  • 使用修改过的arj源码编译和测试
  • C++ 学习与 CLion 使用:(五)数据类型,包括整型、实型、字符型、转义字符、字符串、布尔型
  • 从DevOps到BizDevOps:哪些DevOps工具能够成为业务创新加速引擎?
  • 响应式编程框架Reactor【8】
  • Notepad++近期版本避雷
  • 中心扩展算法
  • 如何解决pip安装报错ModuleNotFoundError: No module named ‘tox’问题
  • 利用 DrissionPage 精准获取淘宝商品描述:Python 爬虫实战指南
  • C/C++、Python和Java语言的比较
  • 【职业】算法与数据结构专题
  • 15693协议ICODE SLI 系列标签应用场景说明及读、写、密钥认证操作Qt c++源码,支持统信、麒麟等国产Linux系统
  • 浪潮科技Java开发面试题及参考答案(120道题-上)
  • 利用本地电脑上的MobaXterm连接虚拟机上的Ubuntu
  • 基于SpringBoot音乐翻唱平台
  • Linux Shell 脚本中括号类型及用途