目录使用urlib发送请求处理异常解析链接分析Robots协议使用requests基本用法高级用法 爬虫首先是需要获取某个网页的源代码,从而才能获取你想要的信息。 当主机向网站服务器发送一个请求,服务器返回的就是网页的源代码。同时在网页中鼠标右击 —>查看网页源代码 即可看见当前网页中的源代码。但是,并不是说页面呈现给你什么内容,源代码里就会出现什么内容。部分内容是采用JS或者PHP等服务器脚本动态从数据库中获取并渲染到页面上的,所以,经常在源代码中看到本来应该是数据的地方是一个JS代码或者只有一个 块。当然,可以通过其他方法获取源代码。 下面介绍几种获取网页源代码的方式 使用urlib ur