当前位置：首页 > ops >正文

Java使用apache.commons.math3的DBSCAN实现自动聚类

ops 2025/8/30 9:02:42

K-Means: 如果你能大致估计出类别的数量，K-Means通常也是一个高效的选择。但它对异常值敏感，且要求簇是球状的。对于一些不知道数据可能会有多少类别的时候，可用试试DBSCAN算法，因为你通常无法预先知道文章会自动分成多少类（K值未知），用DBSCAN是非常不错的，能自动判断拿出类别数量，这里讲解一下java的math3里面自带方法

示例

package com.data;import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;import org.apache.commons.math3.ml.clustering.Cluster;
import org.apache.commons.math3.ml.clustering.DBSCANClusterer;
import org.apache.commons.math3.ml.clustering.DoublePoint;public class TestDBSCAN {public static void main(String[] args) {List<DoublePoint> rawPoints = new ArrayList<>();rawPoints.add(new DoublePoint(new double[] { 0.1, 0.2, 0.3 }));rawPoints.add(new DoublePoint(new double[] { 0.2, 0.14, 0.22 }));// 此处故意设置两个比较大点的值，和小点的值rawPoints.add(new DoublePoint(new double[] { 0.3, 0.4, 0.43 }));rawPoints.add(new DoublePoint(new double[] { 0.88, 0.8, 0.8 }));rawPoints.add(new DoublePoint(new double[] { 0.02, 0.112, 0.08 }));// 多少距离内归纳为同一个簇(两个向量之间的距离)double eps = 0.24;// 需要几个点形成簇int minPts = 0;// 执行聚类DBSCANClusterer<DoublePoint> clusterer = new DBSCANClusterer<>(eps, minPts);List<Cluster<DoublePoint>> clusters = clusterer.cluster(rawPoints);System.out.println("==== 聚类结果 ====");System.out.println("发现簇数量: " + clusters.size());// 打印每个簇for (int i = 0; i < clusters.size(); i++) {System.out.println("\n簇 #" + (i + 1) + ":");for (DoublePoint p : clusters.get(i).getPoints()) {System.out.println("  " + Arrays.toString(p.getPoint()));}}}}

打印结果，很明显的自动区分了3个类别

==== 聚类结果 ====
发现簇数量: 3簇 #1:[0.1, 0.2, 0.3][0.2, 0.14, 0.22][0.02, 0.112, 0.08]簇 #2:[0.3, 0.4, 0.43]簇 #3:[0.88, 0.8, 0.8]

// 多少距离内归纳为同一个簇(两个向量之间的距离)
double eps = 0.24;// 需要几个点形成簇
int minPts = 0;关键在于这两个参数，eps，比如设置成1，所有的都是同一类，也就只有一个簇，
当minPts设置为1的时候，这里不会出现簇2 簇3，因为小于等于1不认为是一个簇(分类)，
所以具体根据数据调整参数即可