目标是把腾讯新闻主页上所有新闻爬取下来,获得每一篇新闻的名称、时间、来源以及正文。接下来分解目标,一步一步地做。python在获取html方面十分方便,寥寥数行代码就可以实现我们需要的功能。这样子就把所有符合条件的链接都保存到urls.txt文件里了。我使用的数据提取的正则表达式是这样的:其实这个并不能匹配到腾讯网的所有新闻,因为上面的新闻有两种格式,标签有一点差别,所以只能提取出一种。这样腾讯网上面的正文基本全部能够提取出来。到此整个采集也就结束了。我简单地使用处理异常的方式,估计应该有其他方式。python的处理简直优雅到死啊!

Python采集腾讯新闻实例

Python采集腾讯新闻实例

Python采集腾讯新闻实例