新浪微博爬虫代码+结果
新浪爬虫的python代码以及部分结果整理 文件列表 1. spider_try.py 爬虫主程序,采用抓取html源码解析的方式获取用户信息。针对每个用户按照person类定义解析。 2. person.py 定义person类,将相应的html标签段解析为可读形式 3. format.py 将最终的结果输出为gexf标准格式方便图处理
文件列表
新浪微博爬虫代码+结果
(预估有个106文件)
edge.txt
123KB
my-map.gexf
184KB
node.txt
60KB
40follow.txt
1KB
58follow.txt
972B
71follow.txt
1KB
9follow.txt
846B
57follow.txt
792B
98follow.txt
3KB
36follow.txt
1KB
暂无评论