对下载的IMDB数据集中的test和train分别进行预处理从而方便后续模型训练代码为PreProcess.py.预处理主要包括大小写转化特殊字符处理stopwords过滤分词最后将处理后的数据存储为CSV格式以方便后续调试.借用了nltk的stopwords集用来将像i you is之类的对分类效果基本没影响但出现频率比较高的词从训练集中清除.