cs435:CS435(大数据) 源码

qquranium92491 11 0 ZIP 2021-05-02 18:05:20

cs435-大数据 PA1 使用MapReduce生成以下unigram配置文件(来自Wikipedia文章的1G数据集): 概要1:在整个语料库中至少出现过一次的字母组合的列表。 字母组合按(升序)字母顺序排序。 无重复。 简介2:目标文章中的字母组合及其频率列表。 此配置文件是按文章生成的。 结果列表按文档ID进行分组,并按照文章中的会标字词的频率进行排序(降序排列)。 配置文件3:在语料库中的字母组合及其频率的列表。 字母组合列表按语料库中字母组合的频率排序(降序排列)。 输入数据: PA1的输入数据是从一组Wikipedia文章编译而来的数据集。 每个数据文件的格式如下: Title_of_Article-1<====>DocumentID-1<====>Text_of_Article-1 NEWLINE NEWLINE Title_of_Article-2<==

用户评论
请输入评论内容
评分:
暂无评论