domextract:用于日本网站的基于DOM的Web内容提取器 源码
提取物 用于日本网站的基于DOM的Web内容提取器。 此工具使用随机森林提取文章内容。 制备 您需要安装MeCab。 git clone https://github.com/taku910/mecab && \ cd mecab/mecab && \ ./configure --enable-utf8-only && \ make && \ make check && \ make install && \ pip install --no-cache-dir mecab-python3 && \ ldconfig && \
文件列表
domextract-master.zip
(预估有个18文件)
domextract-master
setup.py
495B
.gitignore
53B
LICENSE
1KB
README.md
3KB
domextract
columns.txt
282B
english
936B
fe_dom.py
9KB
__init__.py
461B
暂无评论