印度文 | 印度伯特(Indic bert)是一种多语言ALBERT模型,专门涵盖12种主要印度语言。 它在我们约90亿个代币的新颖语料库上进行了预训练,并在一​​系列多样化的任务上进行了评估。 与其他流行的公开多语言模型相比,Indic-bert的参数要少大约10倍,同时它也可以达到与这些模型同等或更好的性能。 我们还介绍了IndicGLUE-一组标准评估任务,可用于衡量印度语言中的单语和多语模型的NLU性能。 与IndicGLUE一起,我们还编译了其他评估任务的列表。 该存储库包含用于在indic-bert和其他类似bert的模型上运行所有这些评估任务的代码。 目录 介绍 印度的BE