python学习笔记Day07

impatient_14063 7 0 txt 2023-07-01 16:07:12

Day07回顾1、多线程爬虫1、多进程线程应用场景1、多进程:大量密集并行计算2、多线程:I/O密集(网络I/O、本地磁盘I/O) 2、多线程爬虫1、URL队列:put(url) 2、RES队列:从URL队列中get()发请求,put(html) 3、创建多个RES线程,发请求获取html 4、创建多个解析线程,解析html 2、BeautifulSoup :HTML/XML解析库1、使用流程1、导入模块:from bs4 import BeautifulSoup as bs 2、创建对象:soup = bs(html,'lxml') 3、查找节点:soup.find_all(id="test") 2、支持解析库1、lxml :快,文档容错能力强2、html.parser :一般3、xml :快,文档容错能力强3、常用方法1、find_all() :列表1、r_list = soup

用户评论
请输入评论内容
评分:
暂无评论