利用Hadoop平台进行大规模(百万以上)中文网页聚类的实验文档,里面有总体设计思路和源代码的一些说明