CommonCrawl-MapReduce在Common Crawl Dataset的WARC文件中提供Google Ads的使用指标,利用Apache Hadoop的Map Reduce技术完成这一任务。
项目设置步骤:
1. 准备依赖项目:CommonCrawl-Common项目。
2. 在进行maven构建之前,需检出CommonCrawl-Common项目并执行以下命令完成安装:
$ cd commoncrawl-common
$ mvn clean install
CommonCrawl MapReduce使用Common Crawl数据集分析Google Ads
文件列表
CommonCrawl-MapReduce-master.zip
(预估有个11文件)
CommonCrawl-MapReduce-master
.gitignore
38B
src
main
resources
log4j.xml
488B
java
com
synerzip
analytics
暂无评论