根据上面所学的CSS基础语法知识,现在来实现字段的解析。首先还是解析标题。打开网页开发者工具,找到标题所对应的源代码。 发现是在div class=entry-header下面的h1节点中,于是打开scrapy shell 进行调试 但是我不想要这种标签该咋办,这时候就要使用CSS选择器中的伪类方法。如下所示。 注意的是两个冒号。使用CSS选择器真的很方便。同理我用CSS实现字段解析。代码如下 # -*- coding: utf-8 -*- import scrapy import re class JobboleSpider(scrapy.Spider): nam