Content 文本预处理;语言模型;循环神经网络基础 机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer 一、文本预处理 文本数据的常见预处理步骤,预处理通常包括四个步骤: 读入文本 分词 建立字典,将每个词映射到一个唯一的索引(index) 将文本从词的序列转换为索引的序列,方便输入模型 Code #文本预处理具体操作 #1、读入文本 import collections import re def read_time_machine(): with open('/home/kesci/input/timemachine7163/timemachin