GerapyAutoExtractor:自动提取器模块 源码
Gerapy自动提取器 这是的自动提取器模块,也可以单独使用。 您可以使用此包来区分列表页面和详细信息页面,我们可以使用它从列表页面提取url ,还可以从详细信息页面提取title , datetime , content ,而无需任何XPath或Selector。 与其他方案相比,它对于中文新闻网站更有效。 简介: 安装 您可以使用以下命令来安装此软件包: pip3 install gerapy-auto-extractor 用法 下面是此程序包实现的方法: 提取列表页 对于列表页面,可以使用extract_list方法提取主列表URL及其标题。 提取详细页面 对于详细信息页面,可以使用extract_title方法提取标题,使用extract_content方法提取内容,使用extract_datetime方法提取日期时间。 您也可以使用extract_detail方法提取上述所有a
文件列表
GerapyAutoExtractor-master.zip
(预估有个64文件)
GerapyAutoExtractor-master
MANIFEST.in
54B
.github
ISSUE_TEMPLATE
bug_report.md
694B
feature_request.md
646B
workflows
python-package.yml
919B
main.py
646B
requirements.txt
126B
暂无评论