文字 Rust中具有Python绑定的NLP 该软件包旨在提供一种高性能工具包,用于为机器学习应用程序提取文本数据。 产品特点 令牌化:Regexp令牌化器,Unicode分段+语言特定的规则 提取:雪球(在Python中比NLTK快15-20倍) 令牌计数:将令牌计数转换为稀疏矩阵以用于机器学习库。 与scikit-learn中的CountVectorizer和HashingVectorizer相似,但功能不太广泛。 Levenshtein编辑距离; Sørensen-Dice,Jaro和Jaro Winkler字符串相似之处 用法 在Python中的用法 vtext需要Python