中科院的标注、北大标注集。也有词频。可以满足大多数的需求。这个是我写java分词器的时候用到的,现在分词器已经编写完毕,特把词库分享给大家。分词总数是29万8左右。其中包括三级地名、名胜古迹、知名的山川河流、1万多成语,还有就是其中的一部词语是来自搜狗输入法的词库。