清华大学开放中文词库
THUOCL(THUOpenChineseLexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。THUOCL具有以下特点:包含词频统计信息DF值(DocumentFrequency),方便用户个性化选择使用。词库经过多轮人工筛选,保证词库收录的准确性。开放更新,将不断更新现有词表,并推出更多类别词表。欢迎专业人士加入,协作建设开放词库,有意者请致信thunlp@gmail.com。该词库可以用于中文自动分词,提升中文分词效果。建议搭配本组研制开发的THULAC工具包使用,提升特定领域中文分词的效果。
推荐下载
-
THUOCL清华大学开放中文词库
THUOCL:清华大学开放中文词库 IT16000条2016-12-24download 财经3830条2016-12-24download 成语8519条2016-12-24download 地名4
90 2020-06-02 -
清华大学开放中文词库中文分词.zip
IT16000条 财经3830条 成语8519条 地名44805条 历史名人13658条 诗词13703条 医学18749条 饮食8974条 法律9896条 汽车1752条 动物17287条
87 2020-05-11 -
搜狗中文词库
中国历史词汇大全【官方推荐】.scel是个词库,不是代码
44 2019-04-30 -
中文词库带词性
用于开发分词所使用的词库,自整理,后续还有更新,词根带词性以及排序
93 2019-01-06 -
360万中文词库
360万中文词库
43 2019-02-22 -
中文词库汉字和拼音
很全的中文txt词库,有汉字和对应的拼音(含声调)。编程适用
177 2020-09-11 -
linux配置中文词库详解
linux 配置中文词库详解,以防对中文进行解析时出现乱码
15 2020-08-21 -
中文词库_分词算法必备
中文词库-分词算法必备 是加权的,经过BP算法的权重训练
60 2019-01-20 -
115万gbk中文词库
1159568个gbk汉语词汇。弄了两天整理出来的,从搜狗词库下载了大多数常用的包括动物植物医学建筑生物化工美术艺术互联网等各个行业的词库。
32 2019-09-23 -
中文分词系统附带加中文词库
中文分词系统附带+中文词库
30 2020-05-22
用户评论