yelp-数据集-项目Yelp学术数据集项目该项目分为以下目录:1. DSParser: a. 包含解析数据集的库 b. 与数据库交互 c. 过滤数据并将数据从文件转换为序列文件的实用程序 d. 标记数据以创建训练和测试数据的实用程序。2. ReviewAggregator:MapReduce工具,用于计算数据集中单词的unigrams、bigrams并分析它们的工具。3. ReviewAnnotator:用于标记数据集的Python实用程序,现在没有被使用,而是在DSParser项目中开发了一些特性来在Java中做同样的事情。4. DSOutputAnalyser:包含分析unigrams、bigrams结果的工具。5. SLURM_Scripts:包含运行Mahout Naive Bayes的SLURM。