初学爬虫,将一些基本的爬虫方法记录在这里供自己复习,日后会陆续更新。 一些基础知识: 状态码:例如200 400 403 404 HTTP状态码(英语:HTTP Status Code)是用以表示网页服务器超文本传输协议响应状态的3位数字代码。 –百度百科 urlib库里面的request a.获取网页的代码。 请求方式有GET和POST两种。urlopen方法可以获取网页的代码 from urllib import request x1=request.urlopen('http://www.baidu.com',data=None)##获取百度首页代码,