GermanWordEmbeddings:获取和预处理德语语料库使用word2vec(gensim)训练模型并使用生成的测试集对其进行评估的工具包源码

qqenable49365 9 0 ZIP 2021-02-09 20:02:14

关于在英语语料库上进行词嵌入训练的研究很多。该工具包通过在德语语料库上应用深度学习,以训练和评估德语模型。有关项目,评估结果和的概述可在或直接在此存储库中找到。该项目是根据发布的。开始吧确保已安装Python 3以及以下库: pip install gensim nltk matplotlib numpy scipy scikit-learn 现在,您可以下载并在您的Shell中执行它,以自动下载此工具包和相应的语料库文件并进行模型训练和评估。请注意,这可能需要大量时间! 您也可以克隆此存储库,并使用我已经进行评估和可视化。如果您只想查看不同Python脚本的工作方式,

文件列表

GermanWordEmbeddings-master.zip (预估有个61文件)

GermanWordEmbeddings-master

.github

FUNDING.yml 82B

evaluation.py 14KB

src

doesntfit.txt 1KB

opposite.txt 382B

verbs.txt 4KB

nouns.txt 1KB

adjectives.txt 3KB

bestmatch.txt 1KB

preprocessing.py 4KB

code

evaluation.ipynb 2KB

preprocessing.ipynb 9KB

training.ipynb 5KB

pca.ipynb 200KB

requirements.txt 111B

word2vec_german.sh 3KB

visualize.py 4KB

training.py 2KB

LICENSE 1KB

WikiExtractor.py 86KB

README.md 12KB

tfvisualize.py 2KB

vocabulary.py 1016B

data

old.syntactic_questions.txt 315KB

syntactic.questions 314KB

semantic_bm.questions 17KB

semantic_df.questions.nouml 3KB

syntactic.questions.nouml 314KB

semantic_op.questions 8KB

semantic_op.questions.nouml 8KB

semantic_df.questions 3KB

semantic_bm.questions.nouml 17KB

.gitignore 856B

result

corpus-psub_CB-52-20.model.result 4KB

corpus-psub_SG-52-15.model.result 4KB

corpus-psub_SG-52-5-R10.model.result 4KB

corpus-psub_SG-52-5.model.result 4KB

corpus-psub_SG-52-5-R50.model.result 4KB

corpus-psub_SG-52-5-NOHS.model.result 4KB

corpus-psub_SG-100-5-R10.model.result 4KB

corpus-psub_SG-52-20.model.result 4KB

SG-52-5-530M.model.result 4KB

SG-52-5-580M.model.result 4KB

corpus_SG-52-5.model.result 4KB

corpus-psub_SG-52-5-N20.model.result 4KB

corpus-psub_SG-100-5.model.result 4KB

SG-52-5-133M.model.result 4KB

SG-52-5-266M.model.result 4KB

corpus-ps_SG-52-5.model.result 4KB

corpus-psub_SG-52-5-N30.model.result 4KB

corpus-psub_SG-200-5-R10.model.result 4KB

corpus-psub_CB-52-5.model.result 4KB

corpus-psub_SG-52-10.model.result 4KB

corpus-psu_SG-52-5.model.result 4KB

corpus-psub_CB-52-5-MEAN.model.result 4KB

corpus-psub_SG-200-5.model.result 4KB

corpus-psub_CB-52-15.model.result 4KB

SG-300-5-NS10-R50.model.result 5KB

corpus-psub_SG-52-5-N10.model.result 4KB

corpus-psub_SG-300-5-R10.model.result 4KB

corpus-psub_CB-52-10.model.result 4KB

corpus-psub_SG-52-5-R20.model.result 4KB

用户评论

暂无评论

土耳其语Word2Vec土耳其语的预训练Word2Vec模型源码

土耳其语预训练Word2Vec模型 (下面是土耳其语版本。/Türkçeiçinaşağıyabakın。) 本教程介绍了如何从Wikipedia转储中为土耳其语训练word2vec模型。此代码使用

30 2021-02-06
NLP预训练模型自然语言处理预训练模型的集合源码

NLP预训练模型:自然语言处理预训练模型的集合

32 2021-02-17
rnn.wgan未经预训练的具有递归生成对抗网络的语言生成模型的训练和评估代码源码

使用递归生成对抗网络进行语言生成而无需预先训练 “中的模型训练和评估代码。本文的简短摘要可。样本输出(32个字符) " There has been to be a place w On

7 2021-02-06
word2vec gensim wiki english使用Wiki英语数据集训练您自己的word2vec嵌入源码

word2vec-gensim-wiki-中文使用Wiki英语数据集训练您自己的word2vec嵌入您可能需要预先训练的word2vec向量,并且此可能对您来说是个好主意。但是,棘手的是使用Wi

9 2021-04-26
使用Scikit Learn库进行训练集和测试集划分以及线性回归模型的预测和性能评估

本示例介绍了如何使用Pandas库加载数据，并利用Scikit-Learn库划分训练集和测试集，然后进行线性回归模型的训练和预测。我们还使用Scikit-Learn提供的评估指标，如均方误差（MSE）

15 2023-06-28
ChineseGLUE中文语言理解评估基准数据集基线预训练模型语料库和页首横幅源码

中国胶汉语语言理解评估基准:数据集,基线,预训练模型,语料库和排行榜中文语言理解测评基准,包括预期的数据集,基准(预训练)模型,语料库,排行榜。「更新,2019年11月22日」 1)【推荐】新版

9 2021-02-08
自然语言处理中的预训练模型

目前预训练模型在自然语言处理领域取得了广泛的成功。本报告的内容主要涵盖以下4部分内容:1)预训练模型的原理介绍,包括模型结构、学习准则、发展历程等;2)预训练模型的迁移方法:包括如何通过任务转换、多步

671 2020-12-20
BabyBERTa针对儿童的语音训练和评估BERT源码

关于该存储库包含研究代码,用于测试在以儿童为导向的小型语料库中训练的RoBERTA小模型(来自美国英语儿童的5M个单词)。我们的模型是使用transformers Python包实现的,该包由hug

4 2021-04-25
学生成绩预测包含执行代码和训练测试数据集

北航数据工作站个人竞赛项目

17 2021-01-03
预测模型深度学习相关的模型训练评估和预测相关代码

预测模型深度学习相关的模型训练评估和预测相关代码常用的深度学习模型训练评估和预测相关代码基于Tensorflow高阶API Estimator实现尽量做到可读性和通用性较好.部分模型子目录下有较详细的

9 2023-01-27

GermanWordEmbeddings:获取和预处理德语语料库使用word2vec(gensim)训练模型并使用生成的测试集对其进行评估的工具包 源码

文件列表

用户评论

推荐下载

GermanWordEmbeddings:获取和预处理德语语料库使用word2vec(gensim)训练模型并使用生成的测试集对其进行评估的工具包源码