当前位置：首页 > news >正文

Day17 聚类算法（K-Means、DBSCAN、层次聚类）

news 2025/7/2 23:44:46

一、聚类算法

1. K-Means 聚类

原理：K-Means 是一种基于划分的聚类算法，目标是将 $n$ 个样本划分到 $k$ 个簇中，使得簇内样本的相似度尽可能高，簇间样本的相似度尽可能低。算法通过迭代的方式，不断更新簇的质心（即簇内样本的均值），直到质心不再变化或达到最大迭代次数。
步骤：
1. 随机初始化 $k$ 个质心。
2. 将每个样本分配到距离最近的质心所在的簇。
3. 重新计算每个簇的质心。
4. 重复步骤 2 和 3，直到质心不再变化或达到最大迭代次数。
优点：实现简单，计算效率高，对于大规模数据集有较好的性能。
缺点：需要预先指定簇的数量 $k$ ；对初始质心的选择敏感，可能会陷入局部最优解；对噪声和离群点敏感。

2. DBSCAN 聚类

原理：DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一种基于密度的聚类算法，它将具有足够密度的区域划分为簇，并在具有噪声的数据中发现任意形状的簇。核心概念包括核心点、边界点和噪声点。
步骤：
1. 定义两个参数：邻域半径 $\epsilon$ 和最小样本数 $M in Pt s$ 。
2. 遍历所有样本，找出所有核心点（在其 $\epsilon$ 邻域内至少有 $M in Pt s$ 个样本）。
3. 从一个核心点开始，通过密度可达关系（即从一个核心点出发，通过一系列核心点相连）扩展出一个簇。
4. 重复步骤 3，直到所有核心点都被访问过。未被访问的样本被标记为噪声点。
优点：不需要预先指定簇的数量；可以发现任意形状的簇；对噪声和离群点具有较好的鲁棒性。
缺点：对于密度变化较大的数据集，参数 $\epsilon$ 和 $M in Pt s$ 的选择比较困难；在高维数据上的性能可能较差。

3. 层次聚类

原理：层次聚类是一种基于样本间相似度的聚类算法，它通过构建一个层次化的聚类树来表示样本之间的聚类关系。层次聚类可以分为凝聚式（自底向上）和分裂式（自顶向下）两种方式。
步骤（凝聚式）：
1. 将每个样本看作一个单独的簇。
2. 计算所有簇之间的相似度，将相似度最高的两个簇合并成一个新的簇。
3. 重复步骤 2，直到所有样本都合并到一个簇中或达到停止条件。
优点：不需要预先指定簇的数量；可以生成一个层次化的聚类结构，方便用户根据需要选择合适的聚类结果。
缺点：计算复杂度较高，对于大规模数据集的计算效率较低；一旦一个合并操作完成，就不能再撤销，可能会导致聚类结果不理想。

在论文中聚类的策略不一定是针对所有特征，可以针对其中几个可以解释的特征进行聚类，得到聚类后的类别，这样后续进行解释也更加符合逻辑。

二、聚类的流程，实操

标准化数据
选择合适的算法，根据评估指标调参（）
KMeans 和层次聚类的参数是K值，选完k指标就确定
DBSCAN 的参数是 eps 和min_samples，选完他们出现k和评估指标
以及层次聚类的 linkage准则等都需要仔细调优。
除了经典的评估指标，还需要关注聚类出来每个簇对应的样本个数，避免太少没有意义。
将聚类后的特征添加到原数据中
原则t-sne或者pca进行2D或3D可视化

作业：对心脏病数据集进行聚类。

import pandas as pd
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
import numpy as np# 读取 heart.csv 文件
file_path = r'.\csv\heart.csv'
data = pd.read_csv(file_path)# 假设数据集中所有列都是数值型特征，若有非数值型需要先处理
# 提取特征
X = data.values# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

接下来以DBSCAN聚类算法为例

# 使用 DBSCAN 进行聚类
db = DBSCAN(eps=0.3, min_samples=10).fit(X_scaled)
core_samples_mask = np.zeros_like(db.labels_, dtype=bool)
core_samples_mask[db.core_sample_indices_] = True
labels = db.labels_# 聚类数量（排除噪声点）
n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)
n_noise_ = list(labels).count(-1)print(f'估计的聚类数量: {n_clusters_}')
print(f'估计的噪声点数量: {n_noise_}')