indic bert:基于BERT的印度语言多语言模型 源码
印度文 | 印度伯特(Indic bert)是一种多语言ALBERT模型,专门涵盖12种主要印度语言。 它在我们约90亿个代币的新颖语料库上进行了预训练,并在一系列多样化的任务上进行了评估。 与其他流行的公开多语言模型相比,Indic-bert的参数要少大约10倍,同时它也可以达到与这些模型同等或更好的性能。 我们还介绍了IndicGLUE-一组标准评估任务,可用于衡量印度语言中的单语和多语模型的NLU性能。 与IndicGLUE一起,我们还编译了其他评估任务的列表。 该存储库包含用于在indic-bert和其他类似bert的模型上运行所有这些评估任务的代码。 目录 介绍 印度的BE
文件列表
indic-bert-master.zip
(预估有个63文件)
indic-bert-master
notebooks
finetuning.ipynb
3KB
configs
albert_large_config.json
508B
albert_base_config.json
507B
scripts
pretrain_albert.sh
594B
gen_mtxt.sh
1KB
vocab_dist.py
721B
暂无评论