关键字提取器 一个玩具包,用于从纯文本文档中提取关键字。 预处理是使用spaCy进行的(标记化,停用词的去除和去词性化),并且通过使用scikit-learn中的实现通过对句子应用tf-idf来选择关键字。 用法 诗歌用于包装和依赖性管理。 使用以下命令安装软件包及其依赖项: poetry install 您还需要下载用于预处理的语言模型: poetry run python3 -m spacy download en_core_web_sm 要检查一切是否正常,请使用nox运行linting,类型检查和单元测试: poetry run nox 进入安装了软件包的虚拟环境后,您可以使用keyword-extractor可执行文件从文档中提取关键字。 您可以将多个输入文档指定为位置参数,并使用-n标志选择要提取的关键字数。 $ poetry shell $ keyword-e