想要爬取指定网页中的图片主要需要以下三个步骤:指定网站链接,抓取该网站的源代码根据你要抓取的内容设置正则表达式以匹配要抓取的内容设置循环列表,重复抓取和保存内容以下介绍了两种方法实现抓取指定网页中图片注意,代码中需要修改的就是imageList = re.findall(r'(https:[^\s]*?我的设计来源如下:可以看到,因为这个网页上的图片都是 png 格式,所以写成imageList = re.findall(r'(https:[^\s]*?)"', page)也是可以的。这两种方法各有利弊,我觉得可以灵活结合使用这两种方法,比如先使用方法2中指定标签的方法缩小要寻找的内容范围,然后再使用正则表达式匹配想要的内容,这样做起来更加简洁明了。
暂无评论