博文的java实现,可以自动抽取语料库中的词汇,可以作为自然语言处理的第一步,准备词典。成词条件互信息左右熵位置成词概率ngram频率运行方法下载或者gradledistTar打包程序解压dict_build-x.x.x.tar解压之后,进入bin.运行:./dict_build你的数据文件的绝对路径结束之后,在数据文件同目录有文件:words_sort.data四列分别为:词,词频,互信息,左右熵,位置成词概率.示例《金瓶梅》抽取结果西门庆  4754    6.727920454563199   2.0315193024276885  0.17472535684926388月娘    1829    6.491853096329675