scrapy+selenium之中国裁判文书网文书爬取

xjunhb 41 0 PDF 2020-12-25 03:12:50

浅尝python网络爬虫,略有心得。有不足之处,请多指正 url = https://wenshu.court.gov.cn/ 爬取内容:裁判文书 爬取框架:scrapy框架 + selenium模拟浏览器访问 开始想暴力分析网页结构获取数据,哈哈哈哈哈,天真了。看来自己什么水平还真不知道。 之后锁定pyspider框架,搞了四五天。该框架对于页面超链接的连续访问问题,可以手动点击单个链接测试,但是通过外部“run”操作,会获取不到数据。其实最后发现很多博客说pyspider的官网文档已经很久没有更新了,企业、项目一般都会用到scrapy。scrapy框架结构如下图: 代码为爬取前两页数

用户评论
请输入评论内容
评分:
暂无评论