CommonCrawl-MapReduceCommon Crawl DatasetWARC文件中提供Google Ads的使用指标,利用Apache Hadoop的Map Reduce技术完成这一任务。

项目设置步骤
1. 准备依赖项目:CommonCrawl-Common项目。
2. 在进行maven构建之前,需检出CommonCrawl-Common项目并执行以下命令完成安装:


$ cd commoncrawl-common
$ mvn clean install