jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。以博客园首页为例pom.xml导入jsoup依赖jsoup代码该方式有个很大的局限性,就是通过jsoup爬虫只适合爬静态网页,所以只能爬当前页面的信息。Selenium是一个浏览器自动化操作框架。selenium主要由三种工具组成。在项目内部,它们分别被称为“IDE”、“WebDriver”和“Grid”。WebElement这是WebDriverAPI中的对象,代表页面上的一个DOM元素。
暂无评论