spider:利用spring boot + webmagic开发的java爬虫系统 源码
蜘蛛 一。简介 通过spring boot建造的爬虫系统 二。技术选型 spring boot:构建项目框架,比较Swift,集成嵌入式tomcat,部署运行方便,零配置代码简洁 elasticSearch:作为nosql数据存储引擎 elastic-job:分布式作业调度系统,依赖zookeeper环境作为分布式协同 WebMagic:爬虫框架,有去重功能,支持Xpath,regex,css等选择器 三。运行方式 先启动zookeeper和elasticsearch ,并修改相应配置,然后按下面任意方式启动项目 方式一:执行命令mvn spring-boot:run立即启动 方式二:maven打成jar包后,将使用命令java -jar spider-1.0.0-SNAPSHOT.war &启动spider-1.0.0-SNAPSHOT.war 方式三:部署在tomcat中直接运行 四。
文件列表
spider-master.zip
(预估有个30文件)
spider-master
.gitignore
330B
biz
src
main
java
cn
pomelo
biz
utils
暂无评论