随着互联网技术的飞速发展,互联网用户每天都必须面对大量的文本数据。 显然,将文本分类可以帮助用户从大规模文本收集中挖掘有用的信息。 聚类由于其不受监督的特性,是对文本进行分类的最有前途的工具之一。 不幸的是,大多数传统的聚类算法在大规模文本收集上失去了高质量,这主要归因于文本之间的高维向量空间和语义相似性。 为了有效和高效地对大规模文本集合进行聚类,提出了一种基于向量重构的聚类算法。 在簇的代表向量中仅保留可以代表簇的特征。 该算法交替重复两个子过程,直到收敛为止。 一种过程是部分调整子过程,该过程通过类似于(SOM)算法的迭代过程来微调特征权重。 为了加快聚类速度,在该子过程中提出并实现了基于相交的相似度测量及其相应的神经元调节功能。 另一个过程是整体调整子过程,在此过程中,要素将重新分配到不同的群集中。 在此子过程中,从聚类的代表向量中删除了无用代表聚类的特征。 在三个文本集合(包括两个小规模和一个大文本集合)上的实验结果表明,我们的算法在小规模和大规模文本集合上均获得了高质量的性能。