VicWord 一个纯php的分词
含有3种切分方法
getWord长度优先切分。最快
getShortWord细粒度切分。比最快慢一点点
getAutoWord自动切分(在相邻词做了递归)。效果最好
可自定义词典,自己添加词语到词库,词库支持文本格式json和二级制格式igb二进制格式词典小,加载快
dict.igb含有175662个词,欢迎大家补充词语到dict.txt,格式(词语\tidf\t词性)
idf获取方法百度搜索这个词语Math.log(100000001/结果数量),如果你有更好的方法欢迎补充。
词性[标点符号,名词,动词,形容词,区别词,代词,数词,量词,副词,介词,连词,助
文件列表
vicword.zip
(预估有个11文件)
addDict.php
590B
LICENSE
11KB
README.md
3KB
demo.php
2KB
Data
dict.txt
2.6MB
dict.json
5.36MB
dict.igb
2.38MB
Lib
VicWord.php
7KB
暂无评论