研究生毕业论文DBSCAN就是一种基于密度的方法,该算法的显著优点是速度快,可以发现任意形状的聚类和噪声点。但是当数据量非常庞大时,该算法对主存要求较高;而且需要定义一个全局变量Eps,如果这个全局变量Eps定义的不好,将会影响聚类质量,尤其是数据分布不均匀时,因此DBSCAN对输入参数Eps是十分依赖的。论文在分析这些不足的基础上,对DBSCAN算法进行了改进,把“分而治之”的思想应用到该算法中。聚类前,先把数据划分成一个个网格,然后把网格分配给多个处理机进行并行聚类,最后再对各个处理机的局部聚类结果进行合并。这样,一方面降低了对主存的要求;另一方面,当数据分布不均匀时,全局变量Eps也不会影响聚类质量,因为每个网格采用单独的Eps值;并且