hadoop携程数据情感预测.rar
基于Eclipse并使用Maven创建Hadoop工程。 1)训练集training.txt文件 该文件是一个大小为75.8MB的文本数据集,并包含了20,000,000条数据记录,每行数据中包含的信息为“评价结论\t 评价内容”。其中,“评价内容”是若干词语组合而成,词语之间是空格隔开,词语包括中文、英文以及其他特殊符号,即其内容为“word1 word2 word3 word4 ...... wordn”,其中wordi表示当前文本描述中的第i个词,n为当前文本描述中包含的总词数。 2)测试集test.txt文件 给定“test.data”数据集,该数据集包含了2000条记录,每行记录中
文件列表
hadoop携程数据情感预测.rar
(预估有个24文件)
test.txt
793KB
training.txt
75.84MB
NB_2017082040
pom.xml
1KB
target
test-classes
Hadoop
NB_2017082040
AppTest.class
627B
classes
暂无评论