内容:监督文本矢量化工具 Textvec是一种文本向量化工具,旨在在Python中实现所有“经典”文本向量化NLP方法。 该项目的主要思想是展示出色的TFIDF方法的替代方法,该方法被过度用于监督任务。 所有接口都类似于因此您只需进行一些更改就可以测试这种受监督方法的性能。 Textvec兼容于: Python 2.7-3.7 。 为何:与TFIDF进行比较 正如您可以在不同的文章1,2中阅读的那样,几乎在每个数据集上,受监督的方法都优于无监督的方法。 但是互联网上的大多数文本分类示例都忽略了这一事实。 IMDB_bin RT_bin 航空公司Sentiment_bin 航空情怀_m