Ta上传的资源 (0)

利用libsvm算法对中文邮件二分类 1.按照索引读取数据,将索引用字符“d”切割;对前半部分提取索引值为0的字符,根据该字符为“s”或“h”分别可以将读取的每个文件写入其它的路径。 2.读取每一个邮件的同时,利用正则表达式去除文本中的英文和数字以及特殊字符,剔除无关的数据。 3.在读取数据的同时对