中文文本自动分类的研究与实现

echohj47626 21 0 NH 2019-07-06 05:07:42

本文讨论了基于词典分词和基于n一gram信息提取的两利，中文文本特征获取方法，提出了将两者相结合的方法，为分类系统提供更多类型的文本特证，从而达到提高分类性能的目的;并进一步研究了冗余特征对于文本分类系统的影响.

用户评论

暂无评论

机器学习中文文本分类实战代码数据

1.文本类别数10类2.训练集文档数50000篇每类平均5000篇.3.测试集文档数50000篇每类平均5000篇.分组完成实验组员数量3个人实现可以获得实验加分.实验内容利用分类算法实现对文本的数据

6 2023-02-08
中文文本分类项目数据集.rar

“复旦大学计算机信息与技术国际数据库中心自然语言处理小组”提供的小样本中文文本分类语料,分为训练集和测试集两部分。内容真实有效

46 2020-08-08
web中文文本的数据挖掘技术研究

顾名思义,文本数据挖掘是从文本中进行数据挖掘(Data Mining)。从这个意义上讲,文本数据挖掘是数据挖掘的一个分支

14 2020-11-28
论文研究中文文本压缩的LZW算法.pdf

结合中文文本中的汉字编码方式、大字符集以及重复字串不长三个不同于英文文本的结构特点对LZW算法从读取数据方式、基本码集和字典码值输出方式三方面进行了修改。改进后的算法对中文文本的压缩比平均比LZW19

14 2020-07-17
chinese_text_cnn TextCNN Pytorch实现中文文本分类情感分析源码

TextCNN Pytorch实现中文文本分类论文参考依赖项 python3.5 pytorch == 1.0.0 torchtext == 0.3.1 jieba == 0.39 词向量 (这

12 2021-02-23
论文研究在线文本分类服务的设计与实现.pdf

在线文本分类服务的设计与实现，罗凡，徐鹏，本文基于业内关于文本相似度计算的研究，提出了一个既考虑新闻时效性又兼顾算法准确率的重复新闻聚类的解决方案，并设计与实现了

8 2020-07-21
基于ELMo词向量的textCNN中文文本分类python代码

基于ELMo词向量的textCNN中文文本分类python代码，ELMo是基于哈工大的HIT-SCIR/ELMoForManyLangs，文本分类代码是基于keras的，有数据有模型有代码。

14 2020-07-16
中文文本分类的两步特征选择法

针对从文集全局角度评价特征重要性的传统特征选择方法可能忽略某些重要分类特征的问题,提出两步特征选择方法.该方法首先过滤掉类别关联性不强的特征;然后根据词的统计信息将词归为各个类别的区分词,找出每个类的

6 2021-02-24
基于Seq2Seq与Bi LSTM的中文文本自动校对模型

针对中文文本自动校对提出了一种新的基于Seq2Seq和Bi-LSTM结合的深度学习模型。与传统的基于规则和概率统计的方法不同,基于Seq2Seq基础结构改进,加入了Bi-LSTM单元和注意力机制,实现

11 2020-10-27
中文文本聚类

使用python实现中文文本聚类，利用kmeans算法，包含jiba分词方法等

42 2019-05-22

中文文本自动分类的研究与实现

用户评论

推荐下载