基于结巴分词的词数统计
读取一个文件夹下的多个txt文件,利用结巴分词统计词数,并输出到另一个TXT文件
使用命令java-jarDictionary.jar源文件夹目的文件
用户评论
推荐下载
-
C语言实现统计文章的单词数目实验报告加源代码
(1)实验内容 编写一个程序。功能是读入一篇英文文章,统计该文章中每个单词的出现次数,并输出出现次数最多的前5个单词及其出现次数。 注意: ① 单词不区分大小写,比如:The和the是相同的单词。 ②
34 2019-01-01 -
Spark大数据中文分词统计Java工程源码
Spark big data Chinese word segmentation statistics Java project source code
45 2019-06-22 -
基于VC++中文分词
改程序完成了对中文分词的基本操作,提供了分词词典和基本的功能模块
15 2020-05-22 -
基于双向LSTMtensorflow中文分词
基于双向LSTM/keras/tensorflow的中文分词,语料为人民日报,分词准确率高达97%
29 2019-02-26 -
分词算法所需的分词文档
在部分分词算法中,需要判断一句话或者一篇文章中哪些连续文字是属于一个词汇的。该文档中包含了绝大多数常用的中文词语,用于分词算法在分词时进行参考
14 2020-11-06 -
结巴中文切词可用
结巴中文切词,可以直接用来切中文;txt、csv、excel都行
35 2019-02-26 -
C++统计文本总单词数并输出各个单词及其出现次数
给定一段文本,统计其中总单词数并输出各个单词及其出现次数,该程序能成功运行。
124 2019-05-27 -
小黄鸡对话语料一共三份未处理单个词切分结巴分词处理
该文档是网传的小黄鸡语料库,经过简单的数据预处理,已保存为conv文件格式,每一个E代表一段对话的开始,详见语料库内容,经本人测试,语料训练效果还不错,有志于学习NLP相关课程的同学可以下载做个小案例
12 2020-05-19 -
JAVA编程统计英文文本文件中的字符数目和单词数目
文件统计。编写程序,统计英文文本文件中的字符数目和单词数目。程序运行时,输入要统计的文件的名称,程序处理后输出字符数目和单词数目。(程序去除文本开头的空格与回车,统计中将回车换行也统计在内,算两个字符
49 2019-05-01 -
诗词数据库
诗词access,包括作者,名称,总共13676首,可做相应程序的对接库使用
27 2019-05-14
暂无评论