TopicMatch是一种使用主题模型按主题领域匹配论文的工具,适用于学术场景中的同行评审。该工具应用了LDA(Latent Dirichlet Allocation)最大权重匹配方法,帮助将一组学术论文按主题相互分配,提升同行评审的匹配效率。特别是,当数据量有限时,可以通过调整主题数量稀疏参数实现优化。在David Blei教授的图形模型课程的TAing过程中,该工具设计主要依赖于以下库:numpy、scipy、pandas、gensim、docopt、nltk、networkx。使用步骤如下:

  1. 目录准备:为每位作者创建独立目录,文档命名需保持一致(例如,目录结构为“mary/abstract.txt, paper.txt”;“han/abstract.txt, paper.txt”)。

  2. 语料库生成:运行make_data.py脚本生成语料库字典文件。

  3. 模型拟合:运行fit_lda.py脚本,生成适合的LDA模型。详细参数配置请参考文档。

该包目前尚未完全实现自动化管道,需手动调整适配不同数据规模的使用场景。