JustSemantics:词嵌入向量的助手
免责声明:
此项目处于非常早期的开发阶段,只有在极度需要时才推荐使用。
它能做什么?
JustSemantics可以读取由word2vec或GloVe生成的向量文件,然后使用Weka的k-means算法对它们进行聚类。
安装
目前,Weka是该项目的一个依赖项。虽然Weka没有包含/打包在此项目中,但可以方便地找到它。安装可能需要一些技术知识,源码已提供,用户需自行操作。开发时使用的是Weka 3.7.5和Apache Commons CLI 1.2,建议使用相同的版本。
使用方法
源文件中包含一些帮助选项,能帮助用户理解如何使用。
输入与输出
-
对于Word2Vec:仅需提供二进制向量文件和聚类数量(k值)。
-
对于GloVe:需提供二进制向量文件、词汇表(txt格式)以及聚类数量(k值)。
目前,程序不会写入输出文件,但会将结果打印到控制台。
暂无评论