vietnamese electra:使用越南语料库的Electra预训练模型源码

brood93148 13 0 ZIP 2021-05-03 04:05:39

使用越南语料库的Electra预训练模型概述是一种用于自我监督的语言表示学习的新方法。该存储库包含在大型越南语料库(约50GB文本)中经过训练的Electra小模型(tensorflow 2.1.0)。根据: 受到生成对抗网络(GAN)的启发,ELECTRA训练模型以区分“真实”和“伪造”输入数据。我们的方法不是通过在BERT中用“ [MASK]”替换令牌来破坏输入,而是通过用不正确但有些合理的伪造品替换一些输入令牌来破坏输入。例如,在下图中,单词“ cooked”可以替换为“ ate”。尽管这有点道理,但它并不适合整个上下文。预训练任务需要模型(即鉴别器)来确定原始输入中的哪些标记已被替换或保持不变。所有语料库都使用。要正确使用此训练模型,请先安装coccoc-tokenizer lib。使用conda准备环境 # Create new env conda c

文件列表

vietnamese-electra-master.zip (预估有个17文件)

vietnamese-electra-master

electra.png 28KB

electra_model_tf2.py 6KB

model_pretrained

config_files

config_dis.json 392B

config_gen.json 361B

dis

tf_model.h5 68.29MB

config.json 1KB

gen

tf_model.h5 65.63MB

config.json 1KB

.DS_Store 6KB

raw_model

checkpoint 283B

requirements.txt 71B

gen_dis_explorer.ipynb 10KB

vocab

vocab.json 1.08MB

merges.txt 675KB

.gitignore 4KB

README.md 4KB

convert_tf2.py 4KB

用户评论

暂无评论

sogou中文语料库

相对比较完整的中文语料库，用于中文本分类的训练预料

78 2018-12-08
搜狗语料库已分词

搜狗语料库，自己用结巴分词分好的。（为什么摘要必须大于50个字）

505 2018-12-08
现代汉语语料库

语言所公开的现代汉语语料库，通过分别查询3500个常用汉字，将所有数据进行清洗去重后的集合。共554026行，解压后约93.8M，带分词和词性标注。

18 2020-06-20
中英平行语料库.zip

中英文平行语料库，用于机器翻译，问答系统等模型的预处理语料

36 2019-09-09
汉语分词语料库

CTB6汉语分词语料库，可以拿来做分词任务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

66 2018-12-26
Reuters21578语料库

这是本人在做自然语言处理使用到的一个语料库，后期也会同步与大家共享资源

19 2019-01-06
wiki中文语料库

维基中文语料库，大小1.6G，所以上传到百度云，之前在csdn找了很久都没找到，只好自己翻墙去下载

50 2019-01-09
CLUE中文语言理解基准测评中文语言理解评估基准数据集基线预训练模型语料库和页首横幅源码

CLUE基准数据集,基线,预训练模型,语料库和页首横幅中文语言理解测评基准,包括预期的数据集,基准(预训练)模型,语料库,排行榜。我们会选择一系列有一定预期的任务对应的数据集,做为我们测试基准的

5 2021-02-08
文本分类语料库复旦测试语料

本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料，共9833篇文档；train_corpus.rar为训练语料，共9804篇文档，两个预料各分为20个相同类别。训练语料和测试语料

34 2020-04-20
chimerarepo伊莱克特拉Electra Repo for Chimera的镜子源码

chimerarepo:伊莱克特拉(Electra)Repo for Chimera的镜子

13 2021-04-01

vietnamese electra:使用越南语料库的Electra预训练模型 源码

文件列表

用户评论

推荐下载

vietnamese electra:使用越南语料库的Electra预训练模型源码