Scrapy : Select tag with non-breaking space with xpathnormalize-space() 实际作用???今天在用scrapy爬某个网站的数据,其中DOM解析我用的是BeautifulSoup,速度上没有XPath来得快,不过因为用了习惯了,所以一直用的bs,版本是bs4. 特别是在我的项目中,如果需要把数据写到MongoDB中,这个bug fix完后,写数据立刻搞定,爬取的内容全部写到MongoDB中。定位元素显示为 &npsp;网页源代码表示为 实际传输Hex为:不间断空格的unicode表示为。保存 csv 直接使用 excel 打开会有乱码(默认ANSI gbk 打开???,u'\xa0' 超出 gbk 能够编码范围???使用记事本打开csv文件,另存为 ANSI 编码,之后 excel 正常打开。
暂无评论