dragnet:事实 网页内容提取 源码
德拉网 Dragnet对网页的光泽镀Chrome或样板装饰不感兴趣。 它对...“只是事实”感兴趣。 Dragnet中的机器学习模型提取主要文章内容,并从网页中提取用户生成的注释(可选)。 它们可在各种测试基准上提供最先进的性能。 有关我们的方法的更多信息,请查看: 我们于2013年在WWW上发表的论文《概述了机器学习方法。 天罗地网和替代内容提取包。 解释了算法背后的直觉。 该项目最初受到Kohlschütter等人的启发,和Weninger等人的最近又受到了启发。 入门 根据您的用例,我们提供两个单独的功能,以仅提取主要文章内容或任何用户生成的评论内容。 每个函数接受一个HTML字符串并返回内容字符串。 import requests from dragnet import extract_content , extract_content_and_comments #
文件列表
dragnet-master.zip
(预估有个88文件)
dragnet-master
setup.py
4KB
.gitignore
390B
requirements.txt
128B
Makefile
839B
.travis.yml
790B
Vagrantfile
563B
LICENSE
1KB
provision.sh
697B
env
暂无评论