pillage:从网页中提取内容和元数据
Pillage是一个非常棒的Node.js库,用于解析网页。它使用baller算法准确地识别网页的内容区域,真的非常有趣。一旦我们有了内容区域,我们就可以解析出文本、图像、视频和其他媒体。为了方便使用,还加入了简单的功能,比如OG标签。它基本上搜索每个文本节点,然后递归地爬上父树,根据文本长度为每个父节点分配一个加权的分数。随着我们向上移动树,该值迅速下降。这是对所有文本节点完成的,因此权重累积以识别最可能的共享父节点。一旦识别出包装器,我们可以做出假设并轻松解析正文内容。安装:npm install pillage
。用法:var pillage = require('pillage'); pillage(url, function)