import requests from lxml import etreeheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36', 'Host': 'movie.douban.com' } def get_one_page(base_url): for i in range(10): url=base_url str(i*25)# response=requests.get(url, headers=headers) html=etree.HTML(response.content) items = html.xpath('//ol/li/div[@class="item"]') for item in items: try: rank=item.xpath('./div[@class="pic"]/em/text()')#提取电影的排名 title=item.xpath('./div[@class="info"]/div[@class="hd"]/a/span/text()')#提取电影名 quote=item.xpath('./div[@class="info"]//p[@class="quote"]/span/text()')#提取quote score=item.xpath('//div[@class="star"]/span[contains(@class,"rating_num")]/text()') if len(quote)==0: quote=[" "] print(rank[0] "\t", title[0] "\t", score[0] "\t", quote[0] "\t", )#注意到xpath返回的都是list。 except : print("出错!") pass if __name__ == '__main__': url = 'https://movie.douban.com/top250?start=' get_one_page(url)
xpath爬取豆瓣电影top250
用户评论
推荐下载
-
豆瓣图像爬取python
此程序是针对于豆瓣影视剧相关图像的简易爬取的爬虫程序,提供给大家进行下载,欢迎大家学习,交流,有问题可以一块讨论
14 2020-11-16 -
python爬取豆瓣影评
python爬取豆瓣影评
12 2021-05-21 -
豆瓣爬取图片.py
这是爬取豆瓣网图片的代码,我自己写的,也是我学校老师布置的作业,应该每个初学者都会学到,所以上传此博给予大家一起相互学习
21 2020-08-08 -
豆瓣爬取图书数据
2万3千多条数据,包括: 全球唯一图书编号; 书名; 作者; 作者简介; 标签;评分人数; 评分; 豆瓣内该书Id; 精装/简装; 页数; 出版商; 图书原名 豆瓣链接; 图书豆瓣图片; 图书概述;
47 2019-01-01 -
豆瓣电影250movie.zip
Scrapy主要包括了以下组件: •引擎用来处理整个系统的数据流处理,触发事务(框架核心) •调度器用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回.可以想像成一个URL(抓取网页
29 2020-06-01 -
豆瓣250电影多线程爬虫
使用python多线程抓取豆瓣250电影排行适合做爬虫练习.
5 2023-01-19 -
scrapy爬取豆瓣即将上映电影邮件定时推送
pythonscrapy爬取豆瓣即将上映电影用邮件定时推送给自己。附送爬取电影天堂的电影信息代码哦。
27 2019-05-14 -
网页前端后端连接项目: 数据可视化与豆瓣TOP250分析
本项目采用Python Flask框架与SQLite3数据库,结合ECharts实现对豆瓣TOP250电影排行的数据可视化。通过JavaScript和HTML构建前端页面与后端连接,展示数据分析结果。
8 2023-11-11 -
Python爬取猫眼豆瓣数据
Python爬取猫眼豆瓣数据,生成大数据海报
54 2019-03-17 -
爬取的豆瓣图书数据
2300+数据,包括:ISBN全球唯一图书编号;Title书名;Author作者;Author_intro作者简介;Tag标签;NumRaters评分人数;Average评分;Id豆瓣内该书Id;Bi
22 2019-05-28
暂无评论