拖网渔船:适用于facebookgabgoogle和tiktok的刮板 源码
拖网渔船 用于网络抓取(和其他)任务的作业计划程序和分析工具。 数据源 当前已实现以下数据源: Facebook帖子和React刮了Facebook帖子,评论和React(例如,心脏等) 用户的gab(纳粹twitter)爬虫帖子 google dorking找到有趣的文件并下载 基于masscan udp的端口扫描程序(需要docker ) onionlist从onionlist.org下载tor-catalogue tiktok获取每个主题标签的视频元数据,下载它们并使用easyOCR分析文本 网址通用http搜寻器 特征 动作/数据源的简单配置,也来自第三方模块/存储库 作业监控和调度 安排工作 sqlite,csv和json浏览器 数据集/工件的分离(每个爬网一个存档) 数量可扩展的工人(也在其他机器上) 建筑学 前端和API GUI创建和安排作业 显示待处理,正在运
文件列表
trawler-main.zip
(预估有个63文件)
trawler-main
utils
Fields.js
594B
SQL.js
558B
worker.js
7KB
db.js
103B
.github
workflows
npm-build.yml
1KB
public
暂无评论