知乎爬虫 zhihu-crawler是一个基于Java的高性能,支持免费的http代理池,支持横向扩展,分布式抓取爬虫项目,主要功能是抓取知乎用户,主题,问题,答案,文章等数据,如果觉得不错,请给个星。 爬取结果 下图为爬取117w知乎用户数据的简单统计 详细统计见 需要 杰克1.8 Redis mongodb 快速开始 修改zhihu/src/main/resources/application.yaml redis,mongodb相关配置, zhihu/src/main/resources/mongo-init.sql mongodb脚步, 设置日志路径,默认在/var/www/l