更新 基于当前repo优化后,A / B榜皆是Top1,代码整理中,后续会陆续放上来! 博客: 优化思路 岗位培训 m 提升mlm任务中的mask策略,提升灵活性,提高下游性能:挖掘新词,加入字典,整个word mask + dynamic mask 挖掘新词 python new_words_mining.py nsp 句子等级的任务是有用的,不过替换为SOP / AOP:query-answer pair时互换位置(sop),query-answer-list时,只打乱answer-list的顺序(aop) 模型自适应 post training的样本格式与下游一致,也能带来提升(区别RoBERTa中的标注) 完整的岗位培训代码为两份:query-answer对与query-answerA-list两种方式: python popint-post-training-wwm-sop