对文本进行聚类,文本预处理-->构造特征向量-->聚类,压缩包内含有实验用语料