因工作需要,最近在做自然语言处理方面的研究,第一步需要实现中文分词,市面上有许多开源的分词组件,本人使用的是word分词,但这些开源组件中的词库都比较小,因此这段时间主要是在网上爬了各种词库,并通过X
包含了日常用词,收录了大多的日常用词及其拼音,且已经排序,供开发基础数据使用
2019屏蔽词库,主要是一些游戏,网站,软件内的敏感词汇汇总
sdcv词库包括 现代汉语词典 朗道汉英字典5.0 牛津英汉双解美化版 朗道英汉字典5.0
stardict 的朗道词库,原 http://stardict.sourceforge.net 主页已经迁移已经不能下载。
整理的一份敏感词库sql文件,大概有6900多条
敏感词大全,包含六大类分类敏感词,可直接下载使用!!
飞鱼拼音七万五词库,不必为了某词库好,某词库也好,而烦恼,本词库集大部分的词库于一身,方便使用! 做为测试数据非常不错。
尝试用excel来制作一个英语词库生成工具,具体是在sheet中放入英语单词,中文解释,英标。然后通过VBA将他们解析为格式固定的txt文件,最后导入到背单词的软件中。上传供大家测试。
全能的词库转换工具,支持各种词库格式相互转换。