zhihu crawler:zhihu crawler是一个基于Java的高级支持免费http代理池支持横向扩展分布式爬虫项目 源码
知乎爬虫 zhihu-crawler是一个基于Java的高性能,支持免费的http代理池,支持横向扩展,分布式抓取爬虫项目,主要功能是抓取知乎用户,主题,问题,答案,文章等数据,如果觉得不错,请给个星。 爬取结果 下图为爬取117w知乎用户数据的简单统计 详细统计见 需要 杰克1.8 Redis mongodb 快速开始 修改zhihu/src/main/resources/application.yaml redis,mongodb相关配置, zhihu/src/main/resources/mongo-init.sql mongodb脚步, 设置日志路径,默认在/var/www/l
用户评论
推荐下载
-
cppLogDevice是Facebook开源的一个可扩展具备容错性的分布式日志系统
LogDevice是专为日志设计的分布式数据存储系统。一般的文件系统会将数据储存为文件,LogDevice会将数据存储为日志,这些日志可被视为记录式的,追加式的和可修剪的文件。
8 2020-05-15 -
SOFATracer是一个用于分布式系统调用跟踪的组件
SOFATracer 是一个用于分布式系统调用跟踪的组件,通过统一的 traceId 将调用链路中的各种网络调用情况以日志的方式记录下来,以达到透视化网络调用的目的。这些日志可用于故障的快速发现,服务
8 2020-08-20 -
ItsucksA Customizable Java Web Crawler
ItSucks网络爬虫是一个具有下载(和恢复)文件能力的Java网络蜘蛛。它能够使用正则表达式和下载模板进行高度定制,所有后端功能也可在单独的库中使用。官网许可用于本地开发时,请将parent/pom
0 2024-10-31 -
Go hydra是一个分布式高可用服务框架
分布式高可用服务框架(用于快速开发http接口, web应用,rpc服务,流程服务,任务调度,消息消费等服务,基于zookeeper等实现分布式服务协调和高可用)
20 2020-08-18 -
python爬虫代理池源码
用于生成一个python爬虫代理池,通过flask作为接口,可以在网页中获取的随机代理
34 2019-09-07 -
分布式死锁的一个例子
形成分布式死锁的关键点是rdr.read()没有保证一次就从SQL服务器把数据全部拿完,而是需要的时候才拿。这样就容易导致网络IO等待
24 2019-07-17 -
python分布式爬虫
python分布式爬虫,参考《python爬虫开发与项目实践》一书
43 2019-09-21 -
kafka一个分布式消息系统
kafka一个分布式消息系统
16 2020-09-19 -
论文研究一个分布式.pdf
传统的验证方法难以保证分布式K互斥算法的有效性和安全性。为解决这一问题,给出了进一步的研究,提出一种基于概率模型检测器PRISM的方法,对KerryRaymond的分布式K互斥算法进行形式化建模与分析
38 2019-09-05 -
分布式项目源码
springmvc+spring+mybatis+dubbo的分布式项目及源代码。
35 2019-01-20
暂无评论