GerapyAutoExtractor:自动提取器模块源码

qqsplash78465 13 0 ZIP 2021-04-04 20:04:22

Gerapy自动提取器这是的自动提取器模块,也可以单独使用。您可以使用此包来区分列表页面和详细信息页面,我们可以使用它从列表页面提取url ,还可以从详细信息页面提取title , datetime , content ,而无需任何XPath或Selector。与其他方案相比,它对于中文新闻网站更有效。简介: 安装您可以使用以下命令来安装此软件包: pip3 install gerapy-auto-extractor 用法下面是此程序包实现的方法: 提取列表页对于列表页面,可以使用extract_list方法提取主列表URL及其标题。提取详细页面对于详细信息页面,可以使用extract_title方法提取标题,使用extract_content方法提取内容,使用extract_datetime方法提取日期时间。您也可以使用extract_detail方法提取上述所有a

文件列表

GerapyAutoExtractor-master.zip (预估有个64文件)

GerapyAutoExtractor-master

MANIFEST.in 54B

.github

ISSUE_TEMPLATE

bug_report.md 694B

feature_request.md 646B

workflows

python-package.yml 919B

main.py 646B

requirements.txt 126B

CONTRIBUTING.md 345B

LICENSE 11KB

samples

list

zhihu_search_result.html 865KB

dfa66_announcement.html 11KB

netease_international_news.html 884KB

sample.html 884KB

hrfund_announcement.html 23KB

tencent_important_news.html 306KB

rtfund_xxpl.html 27KB

netease_rolling_news.html 292KB

netease_leaderboard_news.html 565KB

hsqhfunds_announcement.html 35KB

detail

china_news1.html 193KB

ifeng_news1.html 410KB

sample.html 576KB

netease_news1.html 576KB

setup.py 3KB

README.md 9KB

gerapy_auto_extractor

settings.py 95B

utils

helper.py 409B

similarity.py 906B

lcs.py 538B

__init__.py 0B

cluster.py 2KB

element.py 12KB

preprocess.py 4KB

helpers.py 64B

__init__.py 499B

schemas

tag.py 70B

__init__.py 0B

element.py 12KB

patterns

title.py 295B

__init__.py 0B

datetime.py 4KB

classifiers

detail.py 615B

models

list_model.pkl 13KB

list_scaler.pkl 958B

base.py 709B

__init__.py 321B

list.py 9KB

extractors

base.py 1KB

title.py 3KB

__init__.py 515B

content.py 2KB

list.py 10KB

datetime.py 2KB

__version__.py 75B

tests

test_classify_list.py 751B

settings.py 206B

test_prod_case.py 612B

__init__.py 0B

test_base.py 611B

test_extract_title.py 719B

test_extract_list.py 2KB

test_classify_detail.py 907B

CODE_OF_CONDUCT.md 3KB

.gitignore 2KB

CHANGELOG.md 962B

用户评论

暂无评论

asciiashj提取器

asciiasciiasciiascii提取器

15 2019-05-06
音频提取器

音频提取器.rar

24 2019-05-13
人声提取器

它可以用来提取音乐中的人声。需要注意的是，伴奏和音乐都是 wav 格式，44100 位。

31 2019-06-21
账号提取器

账号提取器

11 2020-05-29
坐标提取器

好用的一个工具

21 2020-12-06
动画提取器

把flash转成图片的工具。制作安卓开关机画面的时候需要用到。

8 2020-11-30
字幕提取器

很好的点阵取模软件，可进行字体选择，进行扫描方式选择，图片取模，很强大

39 2020-03-07
访客提取器

精准访客提取器可用于提取QQ空间的访客QQ和访客QQ邮箱，用于精准网络数据库销售，强大的很

52 2019-09-21
PAKwill提取器

可以提取PAK文件里素材，各大游戏PAK文件提取工具，也可以提取will文件等等

21 2019-01-11
菜单提取器

vb编程技巧，vb编程技术，vb源码，菜单提取器程序，供大家学习参考

15 2019-01-12

GerapyAutoExtractor:自动提取器模块 源码

文件列表

用户评论

推荐下载

GerapyAutoExtractor:自动提取器模块源码