轮廓分析 用于EDA和EDV的文本包 概括 coRPysprofiling是一个开放源代码库,旨在将探索性数据分析和可视化引入自然语言处理领域。 软件包中的函数将用于为单个文本语料库提供一些基本统计信息和可视化效果,或提供将多个语料库彼此进行比较的功能。 安装 $ pip install -i https://test.pypi.org/simple/ corpysprofiling 特征 一些特定功能包括: corpus_analysis : corpus analysis将生成有关单个语料库特征的统计报告(例如,唯一单词数,平均单词/句子长度,使用的最高单词,主题分析)。 corpus_viz : corpus_viz将生成单个语料库的相关可视化效果(例如,词云,平均单词/句子长度的直方图,使用的最高单词)。 corpora_compare :给定两个或多个语料库, corpo