有时候我们会需要从网络上爬取一些图片,来满足我们形形色色直至不可描述的需求。一个典型的简单爬虫项目步骤包括两步:获取网页地址和提取保存数据。这些图片的URL可能是连续变化的,如从001递增到099,这种情况可以在程序中将共同的前面部分截取,再在最后递增并字符串化后循环即可。抑或是它们的URL都保存在某个文件中,这时可以读取到列表中:在python3中,urllib提供了一系列用于操作URL的功能,其中的request模块可以非常方便地抓取URL内容,也就是发送一个GET请求到指定的页面,然后返回HTTP的响应。具体细节请看注释:以下是批量爬取网页时可能需要捕获的异常,同时可以看出,urllib2库对应urllib库,而httplib库对应http.client:
暂无评论