当前位置: 首页 > backend >正文

数据挖掘 6.1 其他降维方法(不是很重要)

6.1 Other dimensionality reduction methods
6.1 其他降维方法

其他降维方法

  • 前言
    • 问题
    • 答案
  • 流形
  • 3 降维大纲
    • 3.1 线性方法
    • 3.2 非线性方法
      • 3.2.1 流形学习方法(Manifold Learning)
      • 3.2.2 概率方法(Probabilistic Approaches)
      • 3.2.3 拓扑数据分析(Topological Data Analysis)
    • 3.3 监督降维方法
  • 不相关与独立
  • 核化PCA(Kernelized PCA)
    • PCA 与核化PCA

前言

问题

降维与相关性的哲学问题
核心问题
为什么我们实际上能够降维?
不同事物之间的相关性从何而来?

不仅仅是 PCA
不只是 PCA,还有其他机器学习方法也依赖相关性。
如果数据完全是随机的、没有结构,那么所有相关性都不存在,我们就无法降维。

举例说明
即使两个样本在外观或训练测试上差异很大,看起来非常不同,但它们可能仍然遵循同样的潜在规则。

结论
降维方法依赖于数据中的潜在相关性。
问题在于:这种潜在相关性到底从何而来?
类似的问题:为什么一个人的身高和体重之间会有关联?

答案

数据中存在结构
在所谓“流形”的东西上,流形本身就是一种结构。
数据不是完全随机的,而是有某种潜在结构。

PCA 的作用
PCA 能发现这种结构,尽管它假设的是线性关系,但现实中并不总是线性的。
因此,除了 PCA,我们还需要学习其他方法来处理这种“流形结构”。

核心问题
这些相关性(数据结构、流形)从何而来?
为什么我们能通过数据去推断出维度?

答案
因为背后有物理约束。
数据的产生过程不是完全自由或随机的,而是受到物理规律、自然法则的限制。如果数据真的完全是随机的,就不会呈现出任何结构,也就谈不上降维或发现相关性。

流形

数据所在的结构称为流形。
在这里插入图片描述
如果我们有两个不同的变量,可以将其视为线性流形。但如果这个类型的数据结构或底层表面相当复杂。比如上图经典的瑞士卷数据集,就是一个三维度数据和变量。
数据肯定有一个结构,数据所在的结构称为它的流形。
我们感兴趣的是有关物理数据约束信息的生成过程,希望帮助我们更好的进行预测任务。所以这个流形可能并不总是线性,因为我们有不同类型的维数或流形。

3 降维大纲

在真实数据集中,许多变量可能是相关的。因此,数据集的有效维度可能比特征数目更低。所以,数据实际上存在于某个 流形(manifold) 上。

降维方法

3.1 线性方法

PCA(主成分分析)
LDA(线性判别分析)
CCA :Canonical Component Analysis 典型相关分析

3.2 非线性方法

3.2.1 流形学习方法(Manifold Learning)

目标:揭示隐藏在高维数据中的低维结构

Kernel PCA(核主成分分析)
MDS(多维尺度分析)
LLE(局部线性嵌入)
t-SNE

3.2.2 概率方法(Probabilistic Approaches)

ICA(独立成分分析)

3.2.3 拓扑数据分析(Topological Data Analysis)

目标:保持数据的拓扑结构

方法:UMAP

3.3 监督降维方法

结合监督学习的降维技术

不相关与独立

在这里插入图片描述
第二列相关性为0,但它们依然具有物理关系。

核化PCA(Kernelized PCA)

在下图的情况中,在上面应用PCA,不会能找到最大方差的任何方向,因为所有方向都差不多。
在这里插入图片描述
如何找到流形在哪里?
通过观察,我们知道,如果我们能够找到一个圆形曲线而不是直线,将会是流形。
我们可以讲数据投影到该圆弧上,实现缩小。
在这里插入图片描述

PCA 与核化PCA

区别在于把 协方差矩阵 CCC 换成了核函数 f(x)f(x)f(x)

PCA(主成分分析)
假设数据结构是 线性 的,通过协方差矩阵分解找到最大方差方向。
协方差矩阵:
C=1N∑i=1N(xi−xˉ)(xi−xˉ)TC = \frac{1}{N} \sum_{i=1}^N (x_i - \bar{x})(x_i - \bar{x})^T C=N1i=1N(xixˉ)(xixˉ)T
优化目标:
max⁡wwTCwsubjectwTw=1\max_w \ w^T C w \\ subject \quad w^T w = 1 wmax wTCwsubjectwTw=1

核化PCA(Kernel PCA)
使用核函数将数据隐式映射到高维特征空间,在高维空间中做线性PCA,从而实现 非线性降维

核矩阵:
Kij=k(xi,xj)K_{ij} = k(x_i, x_j) Kij=k(xi,xj)

优化目标:
max⁡ααTKαsubjectαTα=1\max_\alpha \ \alpha^T K \alpha \\ subject \quad \alpha^T \alpha = 1 αmax αTKαsubjectαTα=1

http://www.xdnf.cn/news/18689.html

相关文章:

  • redis----list详解
  • 深度学习入门第一课——神经网络实现手写数字识别
  • 读《精益数据分析》:A/B测试与多变量测试
  • 【栈 - LeetCode】739.每日温度
  • [Java恶补day51] 46. 全排列
  • 无人机芯片休眠模式解析
  • 关于传统的JavaWeb(Servlet+Mybatis)项目部署Tomcat后的跨域问题解决方案
  • 日语学习-日语知识点小记-构建基础-JLPT-N3阶段(19):文法复习+单词第7回1
  • 基于知识图谱的装备健康智能维护系统KGPHMAgent
  • C++ #pragma
  • 少儿舞蹈小程序需求规格说明书
  • 【Hot100】二分查找
  • Fluent Bit系列:字符集转码测试(上)
  • 使用 Prometheus 监控服务器节点:Node Exporter 详解与配置
  • 实时监测蒸汽疏水阀的工作状态的物联网实时监控平台技术解析
  • 容器学习day02
  • 基于 OpenCV 与 Mediapipe 的二头肌弯举追踪器构建指南:从环境搭建到实时计数的完整实现
  • 力扣498 对角线遍历
  • 4G模块 EC200通过MQTT协议连接到阿里云
  • (LeetCode 每日一题) 498. 对角线遍历 (矩阵、模拟)
  • 撤回git 提交
  • 【龙泽科技】汽车车身测量与校正仿真教学软件【赛欧+SHARK】
  • 什么是共模抑制比?
  • 三坐标如何实现测量稳定性的提升
  • RustFS在金融行业的具体落地案例中,是如何平衡性能与合规性要求的?
  • WRC2025 | 澳鹏亮相2025世界机器人大会,以数据之力赋能具身智能新纪元
  • 大数据毕业设计选题推荐-基于大数据的餐饮服务许可证数据可视化分析系统-Spark-Hadoop-Bigdata
  • LevelDB SSTable模块
  • Consul 在 Windows 上的启动方法
  • 【ACP】2025-最新-疑难题解析-6