【DBSCAN】理论与实现

模型介绍

密度聚类 是一种聚类模型，其思想是，只要样本点的密度大于某个阈值，则将该样本添加到最近的簇中。

优点：

缺点：

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)

核心点(core point) ：半径Eps内含有超过MinPts数目的点

数据准备

import sklearn.datasets
data,target=sklearn.datasets.make_moons(n_samples=500,noise=0.04,shuffle=True)

建模

from sklearn.cluster import DBSCAN
dbscan = DBSCAN(eps=0.3, min_samples=6)
dbscan.fit(data)

DBSCAN(algorithm=’auto’, eps=0.3, leaf_size=30, metric=’euclidean’, metric_params=None, min_samples=6, n_jobs=1, p=None)

结果

dbscan.labels_ # 有lable=-1的情况，这是噪音点

import matplotlib.pyplot as plt
label=dbscan.labels_
for i in [0,1]:
    plt.plot(data[label==i,0],data[label==i,1],'.')
plt.show()