当前位置: 首页 > ds >正文

常见的降维算法

作业:

自由作业:探索下什么时候用到降维?降维的主要应用?或者让ai给你出题,群里的同学互相学习下。可以考虑对比下在某些特定数据集上t-sne的可视化和pca可视化的区别。

一、什么时候用到降维?

降维通常用于以下几类情况:

1. 数据可视化

  • 高维数据(>3维)无法直接可视化,常用降维将数据映射到2D或3D平面进行展示。

  • 常用方法:PCA、t-SNE、UMAP。

2. 数据压缩 / 存储优化

  • 高维数据存储代价大,降维后可减少冗余特征,节省存储空间。

3. 降噪(Denoising)

  • 高维特征空间中可能存在大量噪声维度,降维有助于突出主要结构。

4. 加速模型训练 / 避免维数灾难

  • 在监督学习或聚类中,太多维度容易导致过拟合训练缓慢,降维可提升效率和模型泛化能力。

5. 特征冗余或共线性问题

  • 特征间高度相关时,降维可消除多重共线性,提高建模稳定性。

 二、降维的主要方法与应用场景

方法类型原理简介适用场景
PCA线性、无监督主成分投影,保留最大方差方向高维数据压缩、线性结构数据可视化
t-SNE非线性、无监督保持局部结构的概率分布相似性聚类结构可视化、非线性流形数据展示
UMAP非线性、无监督通过图拓扑保持局部和整体结构替代t-SNE,用于可视化/特征工程
LDA线性、有监督最大化类间方差与类内方差比分类问题的有监督降维
Autoencoder非线性、有监督利用神经网络编码压缩再解码还原数据图像降噪、生成模型、特征提取

 三、t-SNE vs PCA:可视化对比分析

1. 适用数据集

以MNIST(手写数字图像,784维)或Iris数据集(4维)为例,我们可以观察两者的区别。

2. 可视化效果(以MNIST为例)

PCA 可视化:
  • 优点:快速,线性变换,可解释性强。

  • 缺点:只能保留全局最大方差方向,聚类不明显,容易“混团”。

t-SNE 可视化:
  • 优点:保留局部结构,同类样本聚得更紧,异类分得更开。

  • 缺点:

    • 非线性变换,不能用于后续建模;

    • 随机性大(不同run结果可能不同);

    • 参数敏感,尤其是perplexity

可视化示意图

方法可视化效果简述
PCA线性投影,点分布均匀,类聚不明显
t-SNE同类样本成簇,聚类轮廓清晰


                                                                  PCA 

                                                                 t-SNE 

 

四、实践建议:如何选用降维方法?

场景建议方法理由
数据预处理PCA快速提取主成分,增强模型泛化性
可视化非线性聚类结构t-SNE / UMAP更好展示局部结构,直观展示聚类效果
图像/文本压缩或编码Autoencoder可自适应学习低维特征表达
有标签分类建模前特征压缩LDA结合类别信息降维,提高类别区分能力

@浙大疏锦行

http://www.xdnf.cn/news/5296.html

相关文章:

  • 采用SqlSugarClient创建数据库实例引发的异步调用问题
  • 【Qt/C++】深入理解 Lambda 表达式与 `mutable` 关键字的使用
  • MySQL的视图
  • AI 助力,轻松进行双语学术论文翻译!
  • C++GO语言微服务之gorm框架操作MySQL
  • uniapp使用ui.request 请求流式输出
  • LLaVA:开源多模态大语言模型深度解析
  • 物品识别 树莓派4 YOLO v11
  • 青少年编程与数学 02-019 Rust 编程基础 05课题、复合数据类型
  • 解锁 DevOps 新境界 :使用 Flux 进行 GitOps 现场演示 – 自动化您的 Kubernetes 部署
  • 大模型(LLMs)强化学习——RLHF及其变种
  • 基于强化学习 Q-learning 算法求解城市场景下无人机三维路径规划研究,提供完整MATLAB代码
  • linux测试硬盘读写速度
  • uniapp|实现商品分类与列表数据联动,左侧菜单右侧商品列表(瀑布流、高度自动计算、多端兼容)
  • 音频类网站或者资讯总结
  • 电子电器架构 --- 车载以太网拓扑
  • OSPF的四种特殊区域(Stub、Totally Stub、NSSA、Totally NSSA)详解
  • PyTorch 线性回归模型构建与神经网络基础要点解析
  • 数据结构精解:优先队列、哈希表与树结构
  • AI 入门资源:微软 AI-For-Beginners 项目指南
  • Kotlin 协程 vs RxJava vs 线程池:性能与场景对比
  • 【论文阅读】Efficient and secure federated learning against backdoor attacks
  • MySQL 索引(一)
  • 【C++ Qt】容器类(GroupBox、TabWidget)内附思维导图 通俗易懂
  • 发行基础:本地化BUG导致审核失败
  • 动态规划:最长递增子序列
  • 通俗的桥接模式
  • Kubernetes生产实战(十七):负载均衡流量分发管理实战指南
  • 第三天——贪心算法——区间问题
  • 【Java ee初阶】网络编程 UDP socket