Ta上传的资源 (0)

解决nltk.stopwords的下载速度过慢,同时在原有停用词的的基础上加入了一些小语种的停用词,例如马来语、印尼语、菲律宾语,有助于小语种的nlp任务。

该数据集为sklearn.datasets模块中的人脸识别数据fetch_lfw_people,因为下载速度很慢,可以使用直接导入数据集的方式。数据集的信息为:5749个不同人的类别,13233个样本,数据维度为5828。