CCF-BDCI-Sentiment-Analysis-Baseline 1.从该中改写的 2.该模型将文本截成k段,分别输入语言模型,然后顶层用GRU拼接起来。好处在于设置小的max_length和更大的k来降低显存占用,因为显存占用是关于长度平方级增长的,而关于k是线性增长的 模型 线上F1 Bert-base 80.3 Bert-wwm-ext 80.5 XLNet-base 79.25 XLNet-mid 79.6 XLNet-large -- Roberta-mid 80.5 Roberta-large (max_seq_length=512, split_num=1) 81.25 注: 1)实际长度 = max_seq_length * split_num 2)实际batch size 大小= per_gpu_train_batch_size * numbers of gpu