speed commoncrawl scanner:扫描CommonCrawl数据集中的关键字。 使用Amazon EC2 c5.18xlarge实例在大约3小
步速共爬扫描仪 扫描CommonCrawl数据集中的关键字。 使用Amazon EC2 c5n.16xlarge实例在大约4小时内扫描数百个关键字的整个CommonCrawl数据。 在欧盟和民粹主义与公民参与H2020项目的支持下开发。 在AWS Ubuntu 20.04上安装的各种设置步骤 wget -O- https://apt.corretto.aws/corretto.key | sudo apt-key add - sudo add-apt-repository ' deb https://apt.corretto.aws stable main ' sudo apt-get update ; sudo apt-get install -y java-15-amazon-corretto-jdk sudo apt install build-essential cmake li
文件列表
speed-commoncrawl-scanner:扫描CommonCrawl数据集中的关键字。 使用Amazon EC2 c5.18xlarge实例在大约3小时内扫描数百个关键字的整个CommonCrawl数据。 在欧盟和民粹与公民参与H2020项目的支持下开发
(预估有个110文件)
en_v1.csv
46KB
ProcessHostRanksFile.java
3KB
TestKeywords.java
2KB
WetArchiveProcessor.java
10KB
Main.java
16KB
KeywordEntry.java
12KB
FindReoccurringParagraphsES.java
12KB
ImportToES.java
16KB
index.html
908B
index.html
505B
暂无评论