Python网络爬虫教材-Urllib库详解前言网络爬虫已经是一个热门话题,我们希望在半个月的时间内完成学习,开启Python的新篇章。今天我们来总结一下与网络爬虫基础相关的库——Urllib。 Urllib库提供了一系列用于操作URL的功能。在Python3中,将Python2.7的urllib和urllib2两个包合并成了一个urllib库,主要包括以下模块: urllib.request请求模块urllib.error异常处理模块urllib.parse URL解析模块urllib.robotparser robots.txt解析模块urllib.request urllib.request.urlopen通过案例可以看出,urlopen会返回一个二进制的对象,对这个对象进行read()操作可以得到包含网页内容的二进制字符串,然后使用decode()解码成一段HTML代码。 urlopen参数如下: urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault