作为最经典的密度聚类算法,DBSCAN使用一组关于“邻域”概念的参数来描述样本分布的紧密程度,将具有足够密度的区域划分成簇,且能在有噪声的条件下发现任意形状的簇。在学习具体算法前,我们先定义几个相关的概念: 邻域:对于任意给定样本x和距离ε,x的ε邻域是指到x距离不超过ε的样本的集合; 核心对象:若样本x的ε邻域内至少包含minPts个样本,则x是一个核心对象; 密度直达:若样本b在a的ε邻域内,且a是核心对象,则称样本b由样本x密度直达; 密度可达:对于样本a,b,如果存在样例p1,p2,...,pn,其中,p1=a,pn=b,且序列中每一个样本都与