开发工具:Myeclipse。 开发语言:java 用于垃圾短信预处理,将字符串中的非汉字和非英文符号过滤。将拆分字合并,繁体中文转成简体中文,谐音词转换成关键词库中的已有词。 文件清单: chaifenzi.java 拆分字处理类,将拆分字合并成正常汉字,如“车仑”转换成“轮” chineseIdentify.java 干扰字符处理类,去除非汉字和英文字母的字符,如#~.¥%@&等 compleToSimple.java 繁体字转换类,讲字符串中的繁体字转换成简体字 xieyinDispose.java 谐音字处理类,将字符串中的谐音词,转换成词库中的关键词,如词库中有“法轮功”,字符串中出现的“砝伦功”将被替换。 toPinYin.java 拼音处理类,将汉字字符串转换成拼音字符串,此类用到pinyin4j.jar TextPrerocess.java 以上几个类的主测试类,演示如何将一个同时有干扰字符、谐音词、拆分字、繁体字的字符串装换成正常的字符串