对于日文以及英文和中文或者其他的文本类型的数据,基于NLTK和DOCX以及re模块对整个文本进行切分,得到一条条的句子作为RNN网络的初始训练数据