提取物 用于日本网站的基于DOM的Web内容提取器。 此工具使用随机森林提取文章内容。 制备 您需要安装MeCab。 git clone https://github.com/taku910/mecab && \ cd mecab/mecab && \ ./configure --enable-utf8-only && \ make && \ make check && \ make install && \ pip install --no-cache-dir mecab-python3 && \ ldconfig && \