wikipedia2vec:一种用于从Wikipedia中学习单词和实体的矢量表示的工具 源码
维基百科 Wikipedia2Vec是用于从Wikipedia获取单词和实体(即,在Wikipedia中具有相应页面的概念)的嵌入(或矢量表示)的工具。 它由开发和维护。 该工具使您可以同时学习单词和实体的嵌入,并将相似的单词和实体彼此放置在连续的向量空间中。 可以通过单个命令轻松地训练嵌入,并以公开可用的Wikipedia转储作为输入。 该工具实现了来学习单词的嵌入,并且在的文章中提出了扩展 学习实体的嵌入。 提供Wikipedia2Vec与现有嵌入工具(即FastText,Gensim,RDF2Vec和Wiki2vec)之间的经验比较。 可从在线获得文档。 基本用法 可以通过PyPI安装Wikipedia2Vec: % pip install wikipedia2vec 使用此工具,可以通过将Wikipedia转储作为输入运行火车命令来学习嵌入。 例如,以下命令下载最新的英语维基百科转储并从该转储中学习嵌入内容: % wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles
文件列表
wikipedia2vec-master.zip
(预估有个95文件)
wikipedia2vec-master
MANIFEST.in
140B
paper
paper.bib
5KB
model.png
120KB
paper.md
11KB
wikipedia2vec
utils
random.pxd
453B
wiki_page.pyx
966B
暂无评论