DSC180B 顶盖 源码
背景 短语挖掘的目的是从大量文本语料库中提取高质量的短语。 它标识短语而不是一个字母组合词,从而提供了对文本的更多理解。 在这项研究中,我们将自动短语法应用到两个不同的数据集中,并比较了多词和单词短语排名列表的降级质量排名列表。 我们的数据集来自英文的《科学》论文摘要,以及来自维基百科的英语知识库。 通过这个项目,我们将能够通过识别AutoPhrase方法产生的不同结果来了解AutoPhrase方法的优势以及如何在两个数据集中实施Autophrase。 要求 如果您在本地运行: 安装了g ++,Java和gensimLinux或MacOS。 您还可以使用我们的docker映像来运行代码。 无
文件列表
DSC180B-Capstone-main.zip
(预估有个26文件)
DSC180B-Capstone-main
.gitignore
2KB
AutoPhrase
run.py
3KB
data
outputs
empty.txt
1B
example
empty.txt
1B
sample_example.txt
3KB
暂无评论