vtext:Rust中具有Python绑定的简单NLP 源码
文字 Rust中具有Python绑定的NLP 该软件包旨在提供一种高性能工具包,用于为机器学习应用程序提取文本数据。 产品特点 令牌化:Regexp令牌化器,Unicode分段+语言特定的规则 提取:雪球(在Python中比NLTK快15-20倍) 令牌计数:将令牌计数转换为稀疏矩阵以用于机器学习库。 与scikit-learn中的CountVectorizer和HashingVectorizer相似,但功能不太广泛。 Levenshtein编辑距离; Sørensen-Dice,Jaro和Jaro Winkler字符串相似之处 用法 在Python中的用法 vtext需要Python
文件列表
vtext-master.zip
(预估有个77文件)
vtext-master
.circleci
config.yml
5KB
evaluation
README.md
401B
eval_tokenization.py
3KB
.gitignore
532B
README.md
3KB
CHANGELOG.md
1KB
azure-pipelines.yml
588B
暂无评论