当前位置: 首页 > news >正文

机器学习——聚类算法

一、聚类的概念

根据样本之间的相似性,将样本划分到不同的类别中的一种无监督学习算法。

细节:根据样本之间的相似性,将样本划分到不同的类别中;不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。聚类算法的目的是在没有先验知识的情况下,自动发现数据集中的内在结构和模式。计算样本和样本之间的相似性,一般使用欧式距离

二、聚类算法分类

根据聚类颗粒度分类:细粒度和粗粒度。

根据实现方法分类:

基于划分的聚类:K-means算法->按照质心(一个簇的中心位置,通过均值计算)分类;

基于层次的聚类:DIANA(自顶向下)AGNES(自底向上);

基于密度的聚类: DBSCAN算法

......

三、Kmeans算法流程/原理

K值的含义:表示聚类个数,参数n_clusters就是指定k值的。

API:sklearn.cluster.KMeans

流程:1.事先确定常数k,即最终聚类类别数;

           2.随机选择k个样本作为初始聚类中心;

           3.计算每个样本到k个中心的距离,选择最近的聚类中心点作为标记类别;

           4.根据每个类别中的样本点,重新计算出新的聚类中心点(平均值),如果计算得出的新中心点与原中心点一样则停止聚类,否则重新进行第三步过程,直到聚类中心不在变化或者达到最大迭代次数。

四、聚类评估方法

1.SSE“肘”方法

计算簇内误差的平方和,SSE越小,聚类效果越好

SSE=\sum_{i=1}^{k}\sum_{p\epsilon C_{i}}^{}\left | p-m_{i} \right |^{2}

2.SC轮廓系数

综合考虑簇内的内聚程度与簇间的分离程度,SC越大,聚类效果越好

S=\frac{\left ( b-a \right )}{max\left ( a,b \right )}

3.CH轮廓系数

综合考虑簇内的内聚程度、簇间的分离程度、质心的个数,CH越大,聚类效果越好

http://www.xdnf.cn/news/780337.html

相关文章:

  • C++ try{}catch{} 语句块中潜藏问题排查指南
  • CSS(2)
  • Ajax技术分析方法全解:从基础到企业级实践(2025最新版)
  • MySQL的备份和恢复
  • 【Spring AI】如何实现文生图功能
  • ArcGIS Pro字段计算器与计算几何不可用,显示灰色
  • 手摸手还原vue3中reactive的get陷阱以及receiver的作用
  • 高通SoC阵列服务器
  • APM32芯得 EP.07 | 探索使用以太网(ETH),搭建一个简单的本地HTTP服务器
  • 基于Linux系统docker封装exe
  • CentOS 7.9 安装 宝塔面板
  • 【leetcode】15.三数之和
  • 机器学习:集成学习概念、分类、随机森林
  • 24.【.NET8 实战--孢子记账--从单体到微服务--转向微服务】--单体转微服务--认证微服务
  • 使用 C++/OpenCV 图像直方图比较两个图片相似度
  • 奥威BI+AI数据分析:企业数智化转型的加速器
  • Redis 缓存粒度如何控制?缓存整个对象还是部分字段?
  • 三目标微网对经济性进行优化调度
  • Hadoop HDFS 体系结构与文件读写流程剖析
  • 宝塔面板安装nodejs后,通过node -v获取不到版本号,报错node: command not found
  • Qwen与Llama分词器核心差异解析
  • 【RabbitMQ】- Channel和Delivery Tag机制
  • 【mysql】BIGINT UNSIGNED字段被表示为float科学计数法 丢失精度问题
  • 学习路之PHP--easyswoole使用视图和模板
  • MFC Resource.h 文件详解与修改指南
  • nginx+tomcat动静分离、负载均衡
  • JavaScript性能优化实战:从核心原理到工程实践的全流程解析
  • 【大模型:知识图谱】--1.py2neo连接图数据库neo4j
  • Neo4j 数据建模:原理、技术与实践指南
  • Java详解LeetCode 热题 100(25):LeetCode 141. 环形链表(Linked List Cycle)详解