刚学完Python和爬虫,想实践一下,于是选定目标为这个学期使用的在线编程网站 网站如图,要爬取的是第二部分,Python语言练习 ** 思路分析: ** 课程看的是MOOC上北京理工大学嵩天老师的课程,这个网站与课程中给出的几个实例有所不同。该网站需要用异步XHR爬取。 由于在爬取该网站的过程中没有涉及到对标签的解析,或者遍历,所以并不需要使用BeautifulSoup库,使用request库获取网页内容即可。 将得到的数据进行提取。 在线编程页面的数据主要以json格式进行传输,了解json的格式后,仔细观察返回的数据的固定格式,可以对题目,内容以及完成的代码进行提取(提取涉及到字典和列