本项目涉及4个模块。1. 数据清洗模块- Python 2. 数据索引和分割模块-java-lucene 3. SVM分类器模块- scala - spark 4. 混合Kmeans + SVM分类器模块- scala - spark。最后3个模块由根目录驱动。第1步:从下载stackoverflow数据。第2步:将posts.xml和tags.xml放在根目录中,并从同一目录运行python脚本。第3步:使用命令行参数-index运行模块2。它将索引根目录/data中的所有问题并将索引文件放在根目录/indexDir。第4步:使用参数-segmentFullData再次运行模块2。它将执行所需操作。