文本分类文档预处理(英文)

燕尾鱼 48 0 CPP 2019-05-21 17:05:06

简单的文本预处理程序,将输入文档去掉数字(不包含字母的字符串),去掉停用词,去掉标点符号,生成基本可用的词库(保留下的基本都是有意义的特征)。便于之后用支持向量机或者决策树等进行文本分类处理等。

用户评论
请输入评论内容
评分:
Generic placeholder image 卡了网匿名网友 2019-05-21 17:05:06

额 不是我需要的,我需要的是java程序

Generic placeholder image 卡了网匿名网友 2019-05-21 17:05:06

很实用,适合初学者

Generic placeholder image 卡了网匿名网友 2019-05-21 17:05:06

很不错、、

Generic placeholder image 卡了网匿名网友 2019-05-21 17:05:06

没有停用词词典。。不过这个随便一搜就能找到。 另一个问题是,没有全部小写,首字母全部大写觉得有些不利于接下来的工作。

Generic placeholder image 卡了网匿名网友 2019-05-21 17:05:06

没有停用词,谢谢分享

Generic placeholder image 卡了网匿名网友 2019-05-21 17:05:06

感觉不错 试用中

Generic placeholder image 卡了网匿名网友 2019-05-21 17:05:06

感觉不错,就是没有停用词和原数据集的格式

Generic placeholder image 卡了网匿名网友 2019-05-21 17:05:06

还不错 就是 没有源文件夹 不知道停用词文档是什么

Generic placeholder image 卡了网匿名网友 2019-05-21 17:05:06

还不错,谢谢作者

Generic placeholder image 卡了网匿名网友 2019-05-21 17:05:06

C++写的关于单个文档的去听用词,去符号等程序。