预训练在自然语言处理的发展:从Word Embedding到BERT模型