dragnet:事实网页内容提取源码

council2116 14 0 ZIP 2021-04-21 18:04:18

德拉网 Dragnet对网页的光泽镀Chrome或样板装饰不感兴趣。它对...“只是事实”感兴趣。 Dragnet中的机器学习模型提取主要文章内容,并从网页中提取用户生成的注释(可选)。它们可在各种测试基准上提供最先进的性能。有关我们的方法的更多信息,请查看: 我们于2013年在WWW上发表的论文《概述了机器学习方法。天罗地网和替代内容提取包。解释了算法背后的直觉。该项目最初受到Kohlschütter等人的启发,和Weninger等人的最近又受到了启发。入门根据您的用例,我们提供两个单独的功能,以仅提取主要文章内容或任何用户生成的评论内容。每个函数接受一个HTML字符串并返回内容字符串。 import requests from dragnet import extract_content , extract_content_and_comments #

文件列表

dragnet-master.zip (预估有个88文件)

dragnet-master

setup.py 4KB

.gitignore 390B

requirements.txt 128B

Makefile 839B

.travis.yml 790B

Vagrantfile 563B

LICENSE 1KB

provision.sh 697B

env

env_dragnet.yml 132B

scripts

train_and_test_models.py 2KB

README.md 9KB

dragnet

lcs.pyx 3KB

blocks.pyx 31KB

compat.py 9KB

model_training.py 10KB

data_processing.py 16KB

__init__.py 1KB

extractor.py 9KB

util.py 6KB

features

weninger.py 4KB

_weninger.pyx 2KB

kohlschuetter.py 1KB

__init__.py 825B

css.py 2KB

standardized.py 2KB

_readability.cc 4KB

_readability.pyx 2KB

_kohlschuetter.pyx 1KB

readability.py 1KB

pickled_models

py3_sklearn_0.18.0

kohlschuetter_readability_weninger_content_model.pkl.gz 435KB

kohlschuetter_readability_weninger_comments_content_block_errors.txt 337B

kohlschuetter_readability_weninger_comments_content_model.pkl.gz 405KB

kohlschuetter_readability_weninger_content_block_errors.txt 338B

kohlschuetter_readability_weninger_comments_model.pkl.gz 444KB

kohlschuetter_readability_weninger_comments_block_errors.txt 339B

py2_sklearn_0.18.0

kohlschuetter_readability_weninger_content_model.pkl.gz 431KB

kohlschuetter_readability_weninger_comments_content_block_errors.txt 338B

kohlschuetter_readability_weninger_comments_content_model.pkl.gz 408KB

kohlschuetter_readability_weninger_content_block_errors.txt 338B

kohlschuetter_readability_weninger_comments_model.pkl.gz 446KB

kohlschuetter_readability_weninger_comments_block_errors.txt 337B

py2_sklearn_0.15.2_0.17.1

kohlschuetter_readability_weninger_content_model.pkl.gz 433KB

kohlschuetter_readability_weninger_comments_content_block_errors.txt 339B

kohlschuetter_readability_weninger_comments_content_model.pkl.gz 405KB

kohlschuetter_readability_weninger_content_block_errors.txt 339B

kohlschuetter_readability_weninger_comments_model.pkl.gz 444KB

kohlschuetter_readability_weninger_comments_block_errors.txt 339B

py3_sklearn_0.15.2_0.17.1

kohlschuetter_readability_weninger_content_model.pkl.gz 430KB

kohlschuetter_readability_weninger_comments_content_block_errors.txt 338B

kohlschuetter_readability_weninger_comments_content_model.pkl.gz 408KB

kohlschuetter_readability_weninger_content_block_errors.txt 339B

kohlschuetter_readability_weninger_comments_model.pkl.gz 444KB

kohlschuetter_readability_weninger_comments_block_errors.txt 338B

sklearn_0.15.2_0.17.1

kohlschuetter_weninger_readability_content_model.pickle.gz 400KB

kohlschuetter_weninger_readability_content_comments_model.pickle.gz 438KB

sklearn_0.18.0

kohlschuetter_weninger_readability_content_model.pickle.gz 398KB

kohlschuetter_weninger_readability_content_comments_model.pickle.gz 437KB

CHANGES.md 541B

dragnet_www2013.pdf 65KB

test

test_readability.py 733B

test_blocks.py 5KB

test_extractor.py 2KB

test_models.py 3KB

test_lcs.py 262B

test_util.py 2KB

datafiles

block_corrected

page_comments_expected.block_corrected.txt 178B

blank_label.block_corrected.txt 0B

page_no_comments_expected.block_corrected.txt 103B

models_content_mod.json 16KB

Corrected

utf-8_chinese.html.corrected.txt 148B

utf-16.html.corrected.txt 128B

iso-8859-1.html.corrected.txt 64B

page_no_comments.html.corrected.txt 23B

ascii.html.corrected.txt 71B

page_comments.html.corrected.txt 89B

blank_label.corrected.txt 0B

utf-8.html.corrected.txt 64B

models_testing.html 101KB

models_content.json 61KB

readability_features.json 4KB

HTML

blank_label.html 304B

page_for_testing.html 908B

page_no_comments.html 180B

page_comments.html 231B

test_weninger.py 605B

test_kohlschuetter.py 11KB

test_data_processing.py 4KB

MANIFEST.IN 72B

用户评论

暂无评论

网页设计讲座内容

网页制作培训内容 Html的基础知识包含到标题

32 2018-12-17
取网页指定内容

取网页内指定一处内容,写论坛自动发帖回帖是时很有用

15 2020-08-12
网页下载工具网页提取助手

网页下载助手很好的帮你学习网页制作及下载支持 css及图片文档整页的下载

11 2020-11-19
网页正文提取器下载网页正文提取器v1.0

网页正文提取工具是一款强大的网页提取软件,该软件通过对比分析搜狐、新浪、腾讯、网易、中国新闻网、百度、21cn网、中华网等大型门户网站,详细的分析其噪音数据的特点,然后

11 2020-11-10
Web信息提取助手提取网页

Web information extraction assistant extracts web pages

48 2019-06-23
php源码fsockopen获取网页内容实例详解

主要介绍了php源码 fsockopen获取网页内容实例详解的相关资料,需要的朋友可以参考下

20 2020-10-28
静态网页源码内容包括潜水高尔夫等

《淘海园》网站，这是一个初次学习的作品，主要是以表现海南的风景、潜水徒步高尔夫等介绍。

21 2019-03-12
易语言正则取网页文本内容源码

易语言正则取网页文本内容源码,正则取网页文本内容

20 2020-08-04
用VB和VBS搞的IE右键菜单提取网页内容简单代码

用VB和VBS搞的IE右键菜单提取网页内容简单代码思路很简单 EXE文件里面也很简单，里面只有一个 TIMER控件，时刻检测剪贴板中是否有数据，而且数据的开头是不是某个特定的内容，如果是，就

33 2018-12-08
论文研究基于布局相似性的网页正文内容提取研究.pdf

合理的网页正文提取技术可以将海量互联网数据中冗余的、重复的、无用的信息去除,获取更加有实际意义和价值的数据。经过对网页的观察,发现同一网站下的网页具有在内容布局和样式结构上非常相似的特点,提出并实现了

16 2020-08-14

dragnet:事实 网页内容提取 源码

文件列表

用户评论

推荐下载

dragnet:事实网页内容提取源码