JustSemantics:词嵌入向量的助手

免责声明:

此项目处于非常早期的开发阶段,只有在极度需要时才推荐使用。

它能做什么?

JustSemantics可以读取由word2vecGloVe生成的向量文件,然后使用Wekak-means算法对它们进行聚类。

安装

目前,Weka是该项目的一个依赖项。虽然Weka没有包含/打包在此项目中,但可以方便地找到它。安装可能需要一些技术知识,源码已提供,用户需自行操作。开发时使用的是Weka 3.7.5Apache Commons CLI 1.2,建议使用相同的版本。

使用方法

源文件中包含一些帮助选项,能帮助用户理解如何使用。

输入与输出

  • 对于Word2Vec:仅需提供二进制向量文件聚类数量(k值)

  • 对于GloVe:需提供二进制向量文件词汇表(txt格式)以及聚类数量(k值)

目前,程序不会写入输出文件,但会将结果打印到控制台。