短文本聚类 项目介绍 短文本聚类是常用的文本预处理步骤,可以用于洞察文本常见模式,分析设计语义解析规范,加速相似句子查询等。本项目实现了内存友好的短文本聚类方法,并提供了相似句子查询接口。 依赖库 点安装tqdm解霸 使用方法 聚类 python cluster.py --infile ./data/infile \ --output ./data/output 具体参数设置可以参考cluster.py文件内_get_parser()函数参数说明,包含设置分词词典,重置词,匹配采样数,匹配度阈值等。 查询 参考search.py代码里Searcher类的使用方法,如果用于查询标注数据的场景,使