windows平台使用hadoophdfs文件进行中文分词的示例代码
windows平台上,使用Eclipse hadoop插件,开发基于hdfs文件的中文分词统计和排序功能,以唐诗三百首为例,找出其中使用频率最高的词语。
文件列表
HadoopWordCount20171108.7z
(预估有个27文件)
HadoopWordCount
.project
444B
src
宋诗三百首.txt
113KB
stopword.dic
161B
com
magicstudio
hadoop
WordCount.java
4KB
WordComparator.java
427B
暂无评论