敏感词过滤算法(c++实现)
该算法基于DFA并结合许多算法并进行相应的简化,最终其算法基本原理为:将所有敏感词库按模块聚合构建成一个词树(所谓聚合,就是将相同字开头的部分进行聚合,以减少对词的查询范围,相当于建立敏感词索引,如:他奶奶的、他妈的、他娘的,这三个词,聚合构建成词树时,“他”字就是这三个词的索引,同时每个词的结尾都有一个结束标志和该词的一些描述,如敏感级别等),然后从头到尾扫描一遍目标文本,当遇到以敏感词树中的索引的字时,查看后面的文本是否构成敏感词(如果这里有以这个敏感词开头的更长的敏感词时,以更长的为匹配结果,并判断该词在文本中前后是否有分隔符来区别其匹配方式),如果是则记录,一遍扫描完之后所有敏感词即被扫描出来了!
推荐下载
-
敏感词汇过滤
java编写的用于过滤网站上用户发表的内容,比较简单
17 2020-09-28 -
敏感词语过滤
词语过滤,敏感词,很好的进行在线过滤,在线敏感词过滤。
17 2020-09-24 -
最实用网站不良词汇敏感词过滤2012最新
最实用网站不良词汇敏感词过滤(2012最新)
49 2018-12-09 -
ikanalyzer敏感词脏话色情过滤jar里有词典
ikanalyzer敏感词,脏话,色情,过滤,jar里有词典,使用方法,导入jar文件。然后直接调用java里的方法即可。
47 2018-12-08 -
C++中英文敏感词检测工具类
根据敏感词库配置,检测一段文字中是否含有关键字(支持中英文),如果有可将其替换为***,支持UTF8 和 GBK两种编码,内含完整源码,2016敏感词库和测试用例.
60 2018-12-09 -
协同过滤算法代码C++
协同过滤算法代码VS下运行数据集采用MovieLens
28 2019-05-28 -
敏感词检索工程字典树算法
字典树算法的敏感词检索C++代码工程,含有编码转换、特殊符号处、繁体字替换等处理。
26 2019-09-17 -
敏感词检测C语言代码
本代码实现了敏感词检测。findcode是一个用来将敏感词与句子中排序后的单词先按字母顺序排序然后进行逐一比较的函数;如果两者相同,则return1;用数组下标0-25分别表示a-z字母,对应的每个下
66 2019-07-06 -
敏感词查询
使用该工具可以发现文件中的敏感词
55 2019-03-10 -
敏感词大全
收录google.新浪等等,包含1M多的敏感词,
119 2018-12-09
用户评论