BabyBERTa:针对儿童的语音训练和评估BERT 源码
关于 该存储库包含研究代码,用于测试在以儿童为导向的小型语料库中训练的RoBERTA小模型(来自美国英语儿童的5M个单词)。我们的模型是使用transformers Python包实现的,该包由huggingface维护。 历史 2020年(Spring):BabyBERTa项目源于Cynthia Fisher,Dan Roth,Michael Connor和Yael Gertner领导的BabySRL项目,可找到其发表的作品。对于定制(较小尺寸)版本的BERT的SRL和MLM联合培训没有多大益处,因此开始了对BERT获取语法知识的新研究。 2020年(秋季):我们发现,在大型数量协议任务上,针对类似BERT的小型变压器,一种在认知上更合理的MLM预训练策略在相同的大小的RoBERTa模型(在fairseq库中使用标准方法进行了训练)的性能优于同等大小的RoBERTa模型。 2021年
文件列表
BabyBERTa-master.zip
(预估有个20文件)
BabyBERTa-master
babyberta
utils.py
3KB
job.py
8KB
dataset.py
13KB
io.py
4KB
configs.py
807B
probing.py
8KB
params.py
4KB
images
暂无评论