vietnamese electra:使用越南语料库的Electra预训练模型 源码
使用越南语料库的Electra预训练模型 概述 是一种用于自我监督的语言表示学习的新方法。 该存储库包含在大型越南语料库(约50GB文本)中经过训练的Electra小模型(tensorflow 2.1.0)。 根据: 受到生成对抗网络(GAN)的启发,ELECTRA训练模型以区分“真实”和“伪造”输入数据。 我们的方法不是通过在BERT中用“ [MASK]”替换令牌来破坏输入,而是通过用不正确但有些合理的伪造品替换一些输入令牌来破坏输入。 例如,在下图中,单词“ cooked”可以替换为“ ate”。 尽管这有点道理,但它并不适合整个上下文。 预训练任务需要模型(即鉴别器)来确定原始输入中的哪些标记已被替换或保持不变。 所有语料库都使用。 要正确使用此训练模型,请先安装coccoc-tokenizer lib。 使用conda准备环境 # Create new env conda c
文件列表
vietnamese-electra-master.zip
(预估有个17文件)
vietnamese-electra-master
electra.png
28KB
electra_model_tf2.py
6KB
model_pretrained
config_files
config_dis.json
392B
config_gen.json
361B
dis
tf_model.h5
68.29MB
config.json
1KB
暂无评论