textacy:NLP,spaCy之前和之后 textacy是一个基于高性能spaCy库的Python库,用于执行各种自然语言处理(NLP)任务。 通过将基础知识-令牌化,词性标记,依赖项解析等-委托给另一个库, textacy主要关注于之前和之后的任务。 产品特点 通过用于处理一个或多个文档的便捷方法访问spaCy,并通过自定义扩展名和自动语言识别扩展其功能,从而为文本应用正确的spaCy管道 下载包含文本内容和元数据的数据集,从国会演讲到历史文献再到Reddit评论 轻松以多种常用格式在磁盘之间传输数据 清理,规范化和浏览原始文本-在使用spaCy处理之前 灵活地从处理过的文档中提取单词,