gensim – Python中的主题建模 Gensim是用于主题建模,文档索引和大型语料库相似性检索的Python库。 目标受众是自然语言处理(NLP)和信息检索(IR)社区。 产品特点 所有算法均与语料库大小无关(可以处理大于RAM的输入,流式处理,核外处理), 直观的界面 轻松插入您自己的输入语料库/数据流(简单的流式API) 易于使用其他向量空间算法(简单转换API)进行扩展 流行算法的高效多核实现,例如在线潜在语义分析(LSA / LSI / SVD) ,潜在狄利克雷分配(LDA) ,随机投影(RP) ,分层狄利克雷过程(HDP)或word2vec深度学习。 分布式计算:可以