Top2Vec:Top2Vec学习联合嵌入的主题文档和单词向量 源码
更新:现在可以嵌入预训练的通用句子编码器和BERT句子转换器。阅读。 Top2Vec Top2Vec是用于主题建模和语义搜索的算法。它会自动检测文本中存在的主题,并生成联合嵌入的主题,文档和单词向量。训练Top2Vec模型后,您可以: 获取检测到的主题数。 获取主题。 获取主题大小。 获取层次结构主题。 通过关键字搜索主题。 按主题搜索文档。 通过关键字搜索文档。 查找类似的单词。 查找类似的文档。 使用公开模型 有关其工作原理的更多详细信息,请参见。 好处 自动查找主题数。 无需停用词列表。 无需词干/词形限制。 适用于短文本。 创建联合嵌入的主题,文档和单词向量。 内置搜索功能。 它是如何工作的? 该算法所做的假设是,许多语义上相似的文档都表明了一个潜在的主题。第一步是创建文档和单词向量的联合嵌入。将文档和单词嵌入向量空间后,算法的目标是找到文档的密集簇,然后确定哪些单词将这些文档
文件列表
Top2Vec-master.zip
(预估有个23文件)
Top2Vec-master
setup.py
1KB
images
topic61.png
540KB
topic_words.svg
65KB
topic29.png
513KB
hdbscan_docs.png
2.11MB
topic_vector.svg
36KB
topic9.png
512KB
doc_word_embedding.svg
281KB
暂无评论