当前位置: 首页 > news >正文

Sklearn 机器学习 数据聚类 层次聚类的两个重要属性

💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖

在这里插入图片描述

本博客的精华专栏:
【自动化测试】 【测试经验】 【人工智能】 【Python】


在这里插入图片描述

Sklearn 机器学习:数据聚类中层次聚类的两个重要属性详解

层次聚类(Hierarchical Clustering)是一种逐层构建树状聚类结构的无监督学习方法,常见于图像分析、市场细分、基因数据处理等场景。相比 KMeans 这类需要预设簇数量的方法,层次聚类能更自然地反映数据间的嵌套与层次关系。

本文将详解 Sklearn 中 Agglomerative Clustering(凝聚式层次聚类) 的两个核心控制属性:

  • n_clusters
  • distance_threshold

它们不可同时设定,但各有适用场景。


🔍 一、n_clusters:指定聚类个数

含义

n_clusters 表示我们希望最终将数据聚为多少个簇(cluster),是控制聚类粒度的核心参数

from sklearn.cluster import AgglomerativeClusteringmodel = AgglomerativeClustering(n_clusters=3)

这段代码的含义是:算法从每个样本单独作为一个簇开始,每次合并两个最近的簇,直到只剩下 3 个簇为止。

📌 术语补充说明
此过程可理解为:在构建的层次聚类树中,从下往上数,保留到聚为 n_clusters 个簇的那一层,停止后续合并过程,从而实现“截断”树结构。

使用场景

  • 已知聚类目标数量(如 3 类客户、4 个品类)
  • 聚类结果需匹配已有标签或业务分组

🧩 二、distance_threshold:指定距离阈值

含义

distance_threshold 用于控制聚类停止的条件,定义了两个簇之间的最小“距离界限”。

model = AgglomerativeClustering(distance_threshold=5.0, n_clusters=None)

该参数表示:算法每次合并距离最近的两个簇,直到所有簇之间的最小距离超过该阈值,聚

http://www.xdnf.cn/news/1245493.html

相关文章:

  • 编码器模型和解码器模型解析
  • GPT-5的诞生之痛:AI帝国的现实危机
  • LLM开发——语言模型会根据你的提问方式来改变答案
  • arp攻击(ettercap 版本0.8.3.1)
  • Physics Simulation - UE中Projectile相关事项
  • tensorRT配合triton部署模型
  • HTML 如何转 Markdown
  • 【Redis】string常用命令
  • 417页PDF | 2025年“人工智能+”行业标杆案例荟萃
  • 三款好用的PDF阅读器
  • 深入理解 Android SO 导出符号:机制与安全优化
  • Python高级编程与实践:Python高级数据结构与编程技巧
  • 后量子时代已至?中国量子加密技术突破与网络安全新基建
  • 前端1.0
  • AIDL学习
  • 云计算一阶段Ⅱ——11. Linux 防火墙管理
  • 国产大模型平替方案:Spring Boot通义千问API集成指南
  • 【实时Linux实战系列】实时视频监控系统的开发
  • android开发 更改系统默认时区和默认语言
  • 笔试——Day29
  • C语言线程同步详解(互斥锁、信号量、条件变量和读写锁)
  • 【web应用】前后端分离项目基本框架组成:Vue + Spring Boot 最佳实践指南
  • 《C++初阶之STL》【模板参数 + 模板特化 + 分离编译】
  • tc 介绍
  • RHCA04--系统模块管理与资源限制
  • 26-数据仓库与Apache Hive
  • Dubbo-Go调Bug记录-泛化调用调不通
  • uniapp基础(五)调试与错误
  • Python 基础语法(二):流程控制语句详解
  • HPE磁盘阵列管理01——MSA和SMU