indic bert:基于BERT的印度语言多语言模型源码

era1058 24 0 ZIP 2021-02-17 10:02:22

印度文 | 印度伯特(Indic bert)是一种多语言ALBERT模型,专门涵盖12种主要印度语言。它在我们约90亿个代币的新颖语料库上进行了预训练,并在一系列多样化的任务上进行了评估。与其他流行的公开多语言模型相比,Indic-bert的参数要少大约10倍,同时它也可以达到与这些模型同等或更好的性能。我们还介绍了IndicGLUE-一组标准评估任务,可用于衡量印度语言中的单语和多语模型的NLU性能。与IndicGLUE一起,我们还编译了其他评估任务的列表。该存储库包含用于在indic-bert和其他类似bert的模型上运行所有这些评估任务的代码。目录介绍印度的BE

文件列表

indic-bert-master.zip (预估有个63文件)

indic-bert-master

notebooks

finetuning.ipynb 3KB

configs

albert_large_config.json 508B

albert_base_config.json 507B

scripts

pretrain_albert.sh 594B

gen_mtxt.sh 1KB

vocab_dist.py 721B

create_masked_data.sh 706B

ner_preprocess.sh 1KB

convert_to_pt.sh 222B

evaluate.py 761B

preprocess.py 1010B

train_tokenizer.sh 496B

albert

train.py 0B

lamb_optimizer.py 5KB

tokenization.py 14KB

run_classifier.py 19KB

albert_glue_fine_tuning_tutorial.ipynb 11KB

run_squad_v2.py 19KB

run_trivial_model_test.sh 553B

run_pretraining.py 22KB

run_squad_v1.py 20KB

create_pretraining_data.py 23KB

modeling.py 45KB

tokenization_test.py 5KB

run_race.py 17KB

requirements.txt 202B

__init__.py 606B

optimization_test.py 2KB

optimization.py 8KB

classifier_utils.py 35KB

modeling_test.py 10KB

CONTRIBUTING.md 1KB

LICENSE 11KB

fine_tuning_utils.py 3KB

README.md 13KB

export_to_tfhub.py 6KB

run_pretraining_test.py 5KB

squad_utils.py 62KB

evaluate.py 0B

export_checkpoints.py 6KB

race_utils.py 15KB

run_glue.sh 2KB

requirements.txt 1KB

requirements_colab.txt 1KB

LICENSE 1KB

fine_tune

modules

base.py 16KB

masked_lm.py 5KB

token_classification.py 3KB

multiple_choice.py 2KB

utils.py 81B

__init__.py 544B

question_answering.py 0B

text_classification.py 2KB

xsent_retrieval.py 3KB

__init__.py 0B

cli.py 6KB

data

examples.py 11KB

processors.py 17KB

__init__.py 780B

docs

arxiv2020_indicnlp_corpus.pdf 195KB

advanced-usage.md 2KB

.gitignore 1KB

readme.md 18KB

用户评论

暂无评论

BERT NLP

An Iterative Polishing Framework based on Quality Aware Masked Language Model for Chinese Poetry Gen

16 2020-07-20
BERT AttributeExtraction

使用基于bert的微调和特征提取方法来进行知识图谱百度百科人物词条属性抽取。

15 2021-02-19
c#2.0源码多语言的实现

WinForm中多国语言的实现

24 2018-12-28
2019属于BERT预训练语言模型之年附BERT2019年研究进展最新论文.rar

2019年对NLP来说是具有里程碑意义的一年，从阅读理解到情绪分析，各种重要的NLP任务都有了新的记录。核心的研究趋势是NLP中迁移学习，即：使用大量预训练模型，并根据特定的语言相关任务对它们进行微调

7 2020-07-27
AndroidX多语言切换失效

背景:最近做了一个印尼的项目,用的是AndroidX库。项目需要做中、英、印尼三种语言的切换,切换多语言时候重启MainActivity,在Application和BaseActivity里重写att

3 2021-01-09
多语言开发方案.docx

对于游戏常见的多语言开发,提供一个可行的excel使用合并操作。方便多语言独立使用,快捷合并,快速翻译

10 2020-12-30
Delphi多语言套件4.0.3.2141

2009/02/25 v4.0.3.2141 修正:即时切换语言时,对非TComponent元件查找旧的DDKey时可能找到错误的DDKey,从而导致翻译错位。 DDManager修正:字典文件从wi

12 2020-09-17
Android多语言适配Demo

一个实现Android应用内的多语言适配Demo

10 2020-09-20
Android多语言实现

NULL 博文链接:https://hkp.iteye.com/blog/1167271

10 2020-09-28
JavaScript多语言实现

词典形式demo,试用过,有一定的局限性 $(document).ready(function() { dictionary = dic; var selectors = "a,span,t

12 2020-10-03

indic bert:基于BERT的印度语言多语言模型 源码

文件列表

用户评论

推荐下载

indic bert:基于BERT的印度语言多语言模型源码