目录回顾BERT1. 降低模型参数,加宽加深模型2. 改进NSP任务为SOP3. 去掉dropout4. 增加训练数据总结 最近在家听贪心学院的NLP直播课。放到博客上作为NLP 课程的简单的梳理。 简介:虽然BERT模型本身是很有效的,但这种有效性依赖于大量的模型参数,所以训练一套BERT模型所需要的时间和资源成本是非常大的,甚至这样复杂的模型也会影响最终效果。在本次讲座里,我们重点来介绍一种瘦身版的重磅BERT模型 – ALBERT,它通过几种优化策略来获得比BERT小得多的模型,但在GLUE, RACE等数据集上反而超越了BERT模型。 ALBERT: A Lite BERT for L