当前位置：首页 > java >正文

机器学习DBSCAN密度聚类

java 2025/8/13 7:48:42

引言

在机器学习的聚类任务中，K-means因其简单高效广为人知，但它有一个致命缺陷——假设簇是球形且密度均匀，且需要预先指定簇数。当数据存在任意形状的簇、噪声点或密度差异较大时，K-means的表现往往不尽如人意。这时候，DBSCAN（Density-Based Spatial Clustering of Applications with Noise） 作为基于密度的聚类算法，凭借其无需预设簇数、能识别噪声、处理任意形状簇的特性，成为工业界和学术界的神器

本文将从原理到代码，带你彻底搞懂DBSCAN，并通过实战案例掌握其核心技巧。

一、DBSCAN核心概念：用“密度”定义簇

要理解DBSCAN，首先需要明确5个核心概念：

1. ε邻域（ε-Neighborhood）

对于数据点 $p$ ，其ε邻域是指所有与 $p$ 的距离不超过 $ε\varepsilon$ 的点的集合，数学上表示为：
$Nε(p)={q∈D∣distance(p,q)≤ε}N_\varepsilon(p) = \{ q \in D \mid \text{distance}(p, q) \leq \varepsilon \}$
其中 $D$ 是数据集， $distance\text{distance}$ 常用欧氏距离（连续数据）或曼哈顿距离（高维稀疏数据）。

2. 核心对象（Core Object）

如果数据点 $p$ 的ε邻域内至少包含 $min_samples\text{min\_samples}$ 个点（包括 $p$ 自己），则 $p$ 是一个核心对象。
换句话说，核心对象是“密度足够高”的点，是簇形成的基础。

3. 直接密度可达（Directly Density-Reachable）

如果点 $q$ 位于核心对象 $p$ 的ε邻域内（即 $\in N_\varepsilon(p)$ ），则称 $q$ 从 $p$ 出发是直接密度可达的。

4. 密度可达（Density-Reachable）

如果存在一个点序列 $p_1, p_2, ..., p_n$ ，其中 $p_1 = p$ ， $p_n = q$ ，且每个 $p_{i+1}$ 从 $p_i$ 直接密度可达，则称 $q$ 从 $p$ 出发是密度可达的。
密度可达是直接密度可达的传递扩展，但不具备对称性（即 $q$ 密度可达 $p$ 不代表 $p$ 密度可达 $q$ ）。

5. 密度相连（Density-Connected）

如果存在一个核心对象 $o$ ，使得 $p$ 和 $q$ 都从 $o$ 密度可达，则称 $p$ 和 $q$ 是密度相连的。
密度相连的点属于同一个簇。

6. 簇与噪声

簇：数据集中最大的密度相连点集（即无法通过密度可达扩展更多点）。
噪声：不属于任何簇的点（不被任何核心对象密度可达）。

二、DBSCAN算法流程：从核心对象到簇的构建

DBSCAN的核心逻辑是“从核心对象出发，扩展密度可达的点形成簇”。具体步骤如下：

计算所有点的ε邻域：遍历数据集，为每个点计算其ε邻域内的点数量。
筛选核心对象：保留那些ε邻域内点数量 ≥ min_samples的点，标记为核心对象。
扩展簇：从任意一个未被访问的核心对象出发，递归地将其所有密度可达的点加入当前簇，并标记为已访问。
处理噪声：所有未被访问且不属于任何核心对象的点，标记为噪声。

聚类原理

三、代码实战：用Python实现DBSCAN

1. 环境准备与数据生成

我们使用 scikit-learn 提供的合成数据，并添加噪声。首先安装依赖：

pip install numpy pandas matplotlib scikit-learn

生成数据代码：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs, make_noise
from sklearn.preprocessing import StandardScaler# 生成3个真实簇（含噪声）
X, y_true = make_blobs(n_samples=300, centers=3, cluster_std=[1.0, 2.0, 0.8],  # 不同簇的密度差异random_state=42
)
X = StandardScaler().fit_transform(X)  # 标准化数据# 添加5%的噪声点（偏离真实簇）
noise = make_noise(n_samples=int(0.05*len(X)), noise_scale=3.0, random_state=42)[0]
X = np.concatenate([X, noise])# 可视化原始数据
plt.scatter(X[:, 0], X[:, 1], c='gray', s=10, label='Unclustered Data')
plt.title("Raw Data with Noise")
plt.legend()
plt.show()

2. 使用scikit-learn的DBSCAN

sklearn.cluster.DBSCAN 已经封装了高效的DBSCAN实现，我们直接调用并调参：

from sklearn.cluster import DBSCAN# 初始化DBSCAN，关键参数：eps=ε，min_samples=min_samples
dbscan = DBSCAN(eps=0.8, min_samples=5)
clusters = dbscan.fit_predict(X)  # 输出：-1表示噪声，其他为簇标签# 统计结果
n_clusters = len(set(clusters)) - (1 if -1 in clusters else 0)  # 排除噪声标签-1
n_noise = np.sum(clusters == -1)
print(f"Estimated number of clusters: {n_clusters}")
print(f"Estimated number of noise points: {n_noise}")# 可视化聚类结果
plt.scatter(X[:, 0], X[:, 1], c=clusters, s=10, cmap='viridis')
plt.title(f"DBSCAN Clustering (eps=0.8, min_samples=5)")
plt.colorbar(label='Cluster ID (-1=Noise)')
plt.show()

3. 关键参数调优：如何选择ε和min_samples？

DBSCAN的效果高度依赖两个参数：

eps（ε）：邻域半径，太小会导致很多簇被分割，太大可能合并不同簇。
min_samples：核心对象的最小邻域点数，通常设置为维度+1（如2维数据设为3-5）。

调参技巧：k-distance图
k-distance图通过计算每个点到其第k近邻的距离并排序，绘制折线图。曲线的“拐点”对应的距离即为合适的ε（通常k=min_samples-1）。

from sklearn.neighbors import NearestNeighbors
import numpy as np# 计算每个点的k近邻距离（k=min_samples-1=4）
min_samples = 5
k = min_samples - 1
neighbors = NearestNeighbors(n_neighbors=k)
neighbors_fit = neighbors.fit(X)
distances, indices = neighbors_fit.kneighbors(X)# 排序距离并绘制
distances = np.sort(distances, axis=0)[:, 1]  # 取第k近邻的距离（排除自己）
plt.plot(distances)
plt.xlabel("Points sorted by distance")
plt.ylabel(f"{k}-th Nearest Neighbor Distance")
plt.title("k-distance Plot for ε Selection")
plt.grid(True)
plt.show()