reddit word vectors:使用https:pushshift.io对Reddit数据进行处理 源码
RWV(Reddit单词向量) 使用线程从pushshift下载reddit帖子和评论 使用Gensim库从提取的句子中制作Word2vec,Doc2vec或FastText模型 有关如何使用此脚本的更多信息,请参见example.ipynb。 示例word2vec模型可以在找到。 结果 与“ cat”最相似的50个词(浮点数是余弦相似度): 狗:0.84小狗:0.71小猫:0.69小狗:0.69奇瓦瓦狗:0.68哈士奇:0.65哈巴狗:0.65猫:0.62小猫:0.61鸟:0.61小猎犬:0.60鹦鹉:0.59罗威纳犬:0.59邻居:0.59腊肠犬:0.58幼儿:0.58宠物: 0.57女
文件列表
reddit-word-vectors-master.zip
(预估有个16文件)
reddit-word-vectors-master
example.ipynb
8KB
requirements.txt
109B
RWV
__init__.py
0B
pushshift
get_data_threading.py
6KB
__init__.py
0B
classes.py
3KB
load_data.py
1KB
暂无评论