JAVA版本，每秒约10万汉字，基于词典的中文纯文本分词程序

lth14095 19 0 RAR 2019-05-17 06:05:20

java版本基于词典匹配，速度为每秒约10万个汉字，本人测试。同时生成倒排索引，倒排索引包含了对于分词的相关信息，如词频。若有Bug可与我联系。

用户评论

qq17865 2019-05-17 06:05:20

非常好，很好用

gy48414 2019-05-17 06:05:20

简单，使用，挺快的分词。

huihui67406 2019-05-17 06:05:20

请作者简要说一下思路吧。代码没有注释看着很头疼

scutwky 2019-05-17 06:05:20

请问，在这句代码中con=JDBCUTIL.connectToOracle.getConnection(); 提示JDBCUTIL未定义是怎么回事？这个是在哪里定义的？还是因为少了什么包？

开源中文词法文本分析程序整理

开源中文词法文本分析程序整理，有开发软件及其作用

13 2020-05-18
txt文本分割小程序

经常从网站下载小说，但单个文件太大，自己写的txt文件分割小程序，适合有运行环境的程序员使用(java)

19 2019-05-16
一个不错的中文分词java程序

将两个dll文件添加上,将libs里的添加上,即可用了。

7 2020-09-20
JAVA编写的中文智能分词源程序

用ＪＡＶＡ编写的中文智能源程序，用户也可以自己设置一些常用语句。对于研究搜素引擎的学者来说最适合不过了。

28 2020-05-15
tfIDF文本分类算法的java代码

TF-IDF（termfrequency–inversedocumentfrequency）是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(TermFrequency)，IDF意思是逆文本

30 2019-05-31
一个基于概念的中文文本分类模型

本文提出一个电子文档的自动分类的模型：基于《知网》之上，经过对文档的关键词的抽取和排岐，进而得到关键词的概念，再对关键词的概念进行综合而得到该文本的所属的类别，实验证明该模型有较好的效果。

20 2019-01-10
基于两步策略的中文短文本分类研究

为更好地挖掘文本信息,研究了将两步策略用于中文短文本分类的3个关键问题,提出了基于组合朴素贝叶斯(NB)和K近邻(KNN)分类器的两步中文短文本分类方法:(1)直接利用NB和KNN的输出构造其对应的二

9 2021-02-23
Python英文文本分词无空格模块wordninja的使用实例

今天小编就为大家分享一篇关于Python英文文本分词(无空格)模块wordninja的使用实例,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧

15 2020-12-31
文本分类实验报告详尽版本

本报告包括详尽完整的文本分类处理过程，包括语料库的处理、jieba分词、停用词无关词处理、词袋模型的构建（CHI值检验用于特征筛选、tfidf作为特征向量值）。并用自编朴素贝叶斯以及sklearn包中

53 2019-01-21
MFC查词典分词词频统计程序

MFC查词典、分词、词频统计程序,可用!

23 2020-09-29

JAVA版本，每秒约10万汉字，基于词典的中文纯文本分词程序

用户评论

推荐下载