TextCluster:短文本聚类预处理模块 源码
短文本聚类 项目介绍 短文本聚类是常用的文本预处理步骤,可以用于洞察文本常见模式,分析设计语义解析规范,加速相似句子查询等。本项目实现了内存友好的短文本聚类方法,并提供了相似句子查询接口。 依赖库 点安装tqdm解霸 使用方法 聚类 python cluster.py --infile ./data/infile \ --output ./data/output 具体参数设置可以参考cluster.py文件内_get_parser()函数参数说明,包含设置分词词典,重置词,匹配采样数,匹配度阈值等。 查询 参考search.py代码里Searcher类的使用方法,如果用于查询标注数据的场景,使
用户评论
推荐下载
-
K_means文本聚类算法文本java版
基于K-means的文本聚类算法,可以设置聚类的族、停用词。自动将相似词分为一类。用java语言编写的。
26 2019-07-05 -
短文本相似度计算
详细介绍了关于短文本相似度计算的若干方法。
59 2019-01-10 -
C建立文本输入短文cpp
建立一个文本文件,从键盘输入一篇短文存放在文件中。短文有若干航构成,每行不超过80个字符。
20 2019-01-22 -
ChatGPT短文本对话应答实现
ChatGPT技术让短文本对话应答变得更加流畅和自然。通过高效的预训练和持续的微调,它可以根据给定的上下文理解用户的意图并生成连贯、有意义的回复。
6 2024-05-19 -
word2vec_pipeline使用word2vec的NLP管道预处理嵌入预测聚类源码
word2vec管道 Word2vec是一个研究和探索管道,旨在分析生物医学资助,出版物摘要和其他自然语言语料库。 虽然此存储库主要是一个研究平台,但它在美国内部使用。 现在word2vec管道需要p
10 2021-02-06 -
新闻文本评论分类文本预处理文本分类特征词权重等
新闻文本分类,包括文本预处理如分词去停用词,特征词权重,机器学习深度学习文本分类等,内附详细备注,简单易理解。
23 2021-05-04 -
分段和聚类这是分段和聚类源码
分段和聚类 这是分段和聚类
9 2021-02-16 -
PyShortTextCategorization用于短文本挖掘的各种算法源码
Python中的短文本挖掘 介绍 此程序包shorttext是一个Python程序包,可促进对短文本分类进行有监督和无监督的学习。 由于单词的稀疏性以及短文本本身携带的信息不足,在将文本和文档放入任何
10 2021-02-01 -
pamflet短文本的发布应用程序源码
Pamflet是用于发布短文本(尤其是开源软件的用户文档)的发布应用程序。 它旨在易于在任何平台上编写和阅读。 。
9 2021-03-31 -
聚类法系统聚类法动态聚类法模糊聚类法
聚类分析是研究多要素事物分类问题的数量方法。基本原理是根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。 常见的聚类分析方法有
93 2018-12-07
暂无评论