其于原有20万带IDF权重的词典,经过去重,增加,合并后成了120万; 线上系统正在使用中,非常不错; 后面我会将常用度量的也加上。最终形成超全的词库
java语言实现的关于中文词性标注的问题,在Eclipse上通过编译,可运行。欢迎下载,并提出意见。
金山词霸2009中文词典解压放到字典目录下
机械英语词汇表,主要模具,加工,塑胶,冲压
Chinese word database file
B-树作为查找作为查找存储结构,中文单词进行哈希,本中文词典规模在十万级别以上,最长逆向匹配算法实现中文分词。
词库格式:00000456 国家防办 123 nt 00000457 般涅 117 nz 00000458 振奋 275 v 00000459 乌迪内 152 ns 00000460 公交线 136
THULAC是一款相当不错的中文分词工具,准确率高、分词速度蛮快的;并且在工程上做了很多优化,比如:用DAT存储训练特征(压缩训练模型),加入了标点符号的特征(提高分词准确率)等
代码的详解在我的博客中有所介绍,或者也可以看我的知乎文章:https://zhuanlan.zhihu.com/p/103080917。 这个是.py文件,可以直接进行调试。我是在python3.7
英文单词频率分析器
用户评论