本文提出一种新的基于DBSCAN的结构相似性聚类算法,其可以用来发现非规则的,任意形状的聚类类型。同时,针对XML文档集所具备的“结构嵌套”的特性进行研究,本文还提出了一种新的XML分层语义聚类方法,将关键词所处的层级位置作为一个重要因素实现一种新的语义聚类算法,同时在语义比较时进行模糊而不是完全匹配,利用该方法相比传统的文档聚类技术可以更加有效地在语义层面对XML进行聚类。