当前位置：首页 > news >正文

机器学习——聚类算法

news 2025/6/7 16:23:11

一、聚类的概念

根据样本之间的相似性，将样本划分到不同的类别中的一种无监督学习算法。

细节：根据样本之间的相似性，将样本划分到不同的类别中；不同的相似度计算方法，会得到不同的聚类结果，常用的相似度计算方法有欧式距离法。聚类算法的目的是在没有先验知识的情况下，自动发现数据集中的内在结构和模式。计算样本和样本之间的相似性，一般使用欧式距离。

二、聚类算法分类

根据聚类颗粒度分类：细粒度和粗粒度。

根据实现方法分类：

基于划分的聚类：K-means算法->按照质心(一个簇的中心位置,通过均值计算)分类；

基于层次的聚类：DIANA（自顶向下）AGNES（自底向上）；

基于密度的聚类: DBSCAN算法

......

三、Kmeans算法流程/原理

K值的含义：表示聚类个数，参数n_clusters就是指定k值的。

API：sklearn.cluster.KMeans

流程：1.事先确定常数k，即最终聚类类别数；

2.随机选择k个样本作为初始聚类中心；

3.计算每个样本到k个中心的距离，选择最近的聚类中心点作为标记类别；

4.根据每个类别中的样本点，重新计算出新的聚类中心点（平均值），如果计算得出的新中心点与原中心点一样则停止聚类，否则重新进行第三步过程，直到聚类中心不在变化或者达到最大迭代次数。

四、聚类评估方法

1.SSE“肘”方法

计算簇内误差的平方和，SSE越小，聚类效果越好

$SSE=\sum_{i=1}^{k}\sum_{p\epsilon C_{i}}^{}\left | p-m_{i} \right |^{2}$

2.SC轮廓系数

综合考虑簇内的内聚程度与簇间的分离程度，SC越大，聚类效果越好

$S=\frac{\left ( b-a \right )}{max\left ( a,b \right )}$

3.CH轮廓系数

综合考虑簇内的内聚程度、簇间的分离程度、质心的个数，CH越大，聚类效果越好

查看全文

http://www.xdnf.cn/news/780337.html

C++ try{}catch{} 语句块中潜藏问题排查指南

CSS（2）

Ajax技术分析方法全解：从基础到企业级实践（2025最新版）

MySQL的备份和恢复

【Spring AI】如何实现文生图功能

ArcGIS Pro字段计算器与计算几何不可用，显示灰色

手摸手还原vue3中reactive的get陷阱以及receiver的作用

高通SoC阵列服务器

APM32芯得 EP.07 | 探索使用以太网（ETH），搭建一个简单的本地HTTP服务器

24.【.NET8 实战--孢子记账--从单体到微服务--转向微服务】--单体转微服务--认证微服务

使用 C++/OpenCV 图像直方图比较两个图片相似度

奥威BI+AI数据分析：企业数智化转型的加速器

Redis 缓存粒度如何控制？缓存整个对象还是部分字段？

三目标微网对经济性进行优化调度

Hadoop HDFS 体系结构与文件读写流程剖析

宝塔面板安装nodejs后，通过node -v获取不到版本号，报错node: command not found

Qwen与Llama分词器核心差异解析

【RabbitMQ】- Channel和Delivery Tag机制

【mysql】BIGINT UNSIGNED字段被表示为float科学计数法丢失精度问题

学习路之PHP--easyswoole使用视图和模板

MFC Resource.h 文件详解与修改指南

nginx+tomcat动静分离、负载均衡

JavaScript性能优化实战：从核心原理到工程实践的全流程解析

【大模型:知识图谱】--1.py2neo连接图数据库neo4j

Neo4j 数据建模：原理、技术与实践指南

Java详解LeetCode 热题 100(25):LeetCode 141. 环形链表（Linked List Cycle）详解