BabyBERTa:针对儿童的语音训练和评估BERT 源码

sunshine96055 3 0 ZIP 2021-04-25 13:04:08

关于 该存储库包含研究代码,用于测试在以儿童为导向的小型语料库中训练的RoBERTA小模型(来自美国英语儿童的5M个单词)。我们的模型是使用transformers Python包实现的,该包由huggingface维护。 历史 2020年(Spring):BabyBERTa项目源于Cynthia Fisher,Dan Roth,Michael Connor和Yael Gertner领导的BabySRL项目,可找到其发表的作品。对于定制(较小尺寸)版本的BERT的SRL和MLM联合培训没有多大益处,因此开始了对BERT获取语法知识的新研究。 2020年(秋季):我们发现,在大型数量协议任务上,针对类似BERT的小型变压器,一种在认知上更合理的MLM预训练策略在相同的大小的RoBERTa模型(在fairseq库中使用标准方法进行了训练)的性能优于同等大小的RoBERTa模型。 2021年

用户评论
请输入评论内容
评分:
暂无评论