这是一个文档分类python文件可以把文件去掉标点符号转换成数字用tfidf来分类