automatic tag recommender stack overflow:使用Apache Spark、Lucene

qqperiodical9590 2 0 zip 2024-10-10 20:10:19

本项目涉及4个模块。1. 数据清洗模块- Python 2. 数据索引和分割模块-java-lucene 3. SVM分类器模块- scala - spark 4. 混合Kmeans + SVM分类器模块- scala - spark。最后3个模块由根目录驱动。第1步：从下载stackoverflow数据。第2步：将posts.xml和tags.xml放在根目录中，并从同一目录运行python脚本。第3步：使用命令行参数-index运行模块2。它将索引根目录/data中的所有问题并将索引文件放在根目录/indexDir。第4步：使用参数-segmentFullData再次运行模块2。它将执行所需操作。

文件列表

automatic-tag-recommender-stack-overflow-master.zip (预估有个24文件)

automatic-tag-recommender-stack-overflow-master

stack-overflow-tag-recommender-classifier

src

main

scala

stackoverflow

tag

recommender

classifier

Tokenizer.scala 1KB

DataParser.scala 999B

Driver.scala 7KB

VectorUtil.scala 1009B

java

custom

analyzer

StackOverflowAnalyzer.java 12KB

build.sbt 626B

README.md 2KB

TagListGererator.py 315B

QuestionIndexingService

src

stackoverflow

question

segmenter

QuestionSearcher.java 3KB

indexer

model

Question.java 1KB

utils

QuestionsXmlFileReader.java 92B

QuestionXmlParser.java 974B

QuestionsSAXHandler.java 3KB

service

QuestionSearchEngine.java 88B

QuestionIndexer.java 2KB

StackOverflowAnalyzer.java 12KB

driver

Driver.java 9KB

PostDataCleaningScript.py 4KB

stack-overflow-tag-recommender-clustering

src

main

scala

stackoverflow

tag

recommender

clustering

Tokenizer.scala 1KB

DataParser.scala 1KB

Driver.scala 9KB

VectorUtil.scala 1020B

java

custom

analyzer

StackOverflowAnalyzer.java 12KB

build.sbt 509B

用户评论

暂无评论

Learning Apache Spark with Python.pdf

spark程序开发，运用python语言，英文原版，绝对值得拥有和学习！！！

15 2020-07-16
大数据Apache Spark SemiStructured data

大数据--ApacheSparkSemi-Structureddata

32 2019-09-18
Packt Apache Spark Deep Learning Cookbook

2018年7月Packt出版社最新的spark书籍,本书主要涉及spark在深度学习方面的应用,包括sparkML,XGBoost,股票预测(LSTM),推荐引擎等

37 2019-09-21
Stream Processing with Apache Spark2019

StreamProcessingwithApacheSpark作者:GerardMaas/FrancoisGarillot副标题:MasteringStructuredStreamingandSpar

29 2019-09-12
beginning_apache_spark_2pdf

There is no better time to learn Spark than now. Spark has become one of the critical components in

30 2019-01-21
Apache加Spark源码剖析.pdf

Apache+Spark源码剖析.pdf个人收集电子书，仅用学习使用，不可用于商业用途，如有版权问题，请联系删除！

9 2020-06-21
apache spark3course源码

Apache Spark 3课程如何运行应用程序转到Run选项卡,然后单击“ Edit Configurations... 单击+号,然后选择“ Application 选择您的Module和Ma

10 2021-03-31
Apache Spark 3.4.1安装包

专为Hadoop 3设计的Apache Spark 3.4.1版本。包含集群计算所需组件。

15 2024-05-02
孟祥瑞Apache Spark and Databricks Cloud

该文档来自于Databricks 软件工程师，Apache Spark PMC成员孟祥瑞，在2014中国大数据技术大会大数据技术分论坛的演讲“Apache Spark and Databricks C

22 2019-01-01
20181201Apache CarbonData Spark Meetup

20181201Apache CarbonData & Spark Meetup.

31 2019-01-02

automatic tag recommender stack overflow:使用Apache Spark、Lucene

文件列表

用户评论

推荐下载