维基百科 Wikipedia2Vec是用于从Wikipedia获取单词和实体(即,在Wikipedia中具有相应页面的概念)的嵌入(或矢量表示)的工具。 它由开发和维护。 该工具使您可以同时学习单词和实体的嵌入,并将相似的单词和实体彼此放置在连续的向量空间中。 可以通过单个命令轻松地训练嵌入,并以公开可用的Wikipedia转储作为输入。 该工具实现了来学习单词的嵌入,并且在的文章中提出了扩展 学习实体的嵌入。 提供Wikipedia2Vec与现有嵌入工具(即FastText,Gensim,RDF2Vec和Wiki2vec)之间的经验比较。 可从在线获得文档。 基本用法 可以通过PyPI安装Wikipedia2Vec: % pip install wikipedia2vec 使用此工具,可以通过将Wikipedia转储作为输入运行火车命令来学习嵌入。 例如,以下命令下载最新的英语维基百科转储并从该转储中学习嵌入内容: % wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles