中文敏感词库、各种停用词表以及各种分词词库
中文敏感词库、各种停用词表以及各种分词词库,txt格式方便实用
用户评论
推荐下载
-
NLP常用停用词表总结1286个常用停用词
本文将为大家整合NLP(自然语言处理)中的常用停用词表,包含1286个停用词。停用词是指文章中无实际意义但经常出现的单词,如“的”、“了”、“是”等,它们会影响机器学习模型的准确度,因此在文本处理中需
84 2018-12-07 -
中文词库_分词算法必备
中文词库-分词算法必备 是加权的,经过BP算法的权重训练
60 2019-01-20 -
百度中文分词词库
数据挖掘资源:可以用于中文分词的百度中文分词词库。
50 2019-01-19 -
python的中文分词库smallseg
python的中文分词库有多个,jieba、thulac都可以在GitHub上下载到,但是smallseg需要在code.google上下载,所以只上传了smallseg
56 2019-05-15 -
最新中文分词工具的词库
包括4款分词工具的最新词库:1、IK分词:27万词2、jieba分词:40万词3、mmseg分词:15万词4、word分词:64万词
30 2019-05-31 -
中文分词词库词典频率统计
中文分词词库词典,支持频率统计如: 33 °C 1 34 阿 257 35 阿巴丹 1 36 阿巴岛 1 37 阿巴鸟 8 38 阿巴伊达 1 39 阿坝 2 40 阿爸 12 41 阿北乡
24 2020-08-10 -
非常齐全的txt词库下载包含各种编程所需词库
非常齐全的txt词库打包下载,包括搜狗四十万词库,JE分词词库,噪音词库,填充词库,数字词库。编程使用。
28 2019-05-20 -
信息检索汉语停用词表
停用词其实至少一种叫法。它是指文本中出现频率很高,但实际意义又不大的词,主要指副词、虚词、语气词等。如“是”、“而是”等。 它主要用在信息检索中。在为文本或网页建立索引的时候,会去掉这些词。
28 2020-09-17 -
哈工大停用词表.doc
此为哈工大停用词表,可用于分词使用。语言技术平台(LTP)提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、高效、精准的自然语言处理技术。经过哈工大社会计算与信息检索研究中心
25 2020-03-10 -
哈工大停用词表.txt
基于哈工大停用词表,如果有特定需要但未收录的停用词可直接在该txt文档增加。添加格式:每行一个停用词
18 2020-04-20
暂无评论