Ta上传的资源 (0)

包含已调试好的selenium、firefox与python3.6的docker镜像文件,同时有一个测试案例,可以直接运行,使用无界面firefox访问网站

停用词表,一共2750个停用词,属于通用停用词表。下载了很多网上的通用停用词表,同时合并了我们实验室的停用词表后使用下面的代码对停用词表整理。

通过jsoup对主流售房网站的房屋信息进行爬取与提取,然后通过poi将数据保存在本地的excel数据表中。

使用java语言快捷的爬取整个网页的源代码,并且将爬取成功的网页代码与出现错误的网址的错误信息保存到本地文件中.