在Machine Learning中LDA是两个常用模型的简称Linear Discriminant Analysis和Latent Dirichlet Allocation.这次主题讲的是后者.LDA是一个在文本建模中很著名的模型类似于SVD PLSA等模型可以用于浅层语义分析在文本语义分析中是一个很有用的模型.这个模型涉及到的数学知识包括Gamma函数Dirichlet分布Dirichlet Multinomial共轭gibbs Sampling贝叶斯文本建模PLSA以及LDA.1.LDA的作用传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少如TF IDF等这种方法没有考虑到文字背后的语义关联可能在两个文档共同出现的单词很少甚至没有但两个文档是相似的.例如有两个句子分别如下乔布斯离我们而去了.苹果价格会不会降可以看到上面这两个句子没有共同出现的单词但这两个句子是相似的如果按传统的方法判断这两个句子肯定不相似所以在判断文档相关性的时候需要考