使用C++写的一套敏感词过滤算法,把敏感词库放到可执行文件的同一目录。经测试,一秒钟最高可达到1千万的处理量。在输入较复杂的文本(200个文字),大概达到50万每秒的处理量。
此文档整理了最新的敏感词库,可供接触敏感词管理这一块的人员进行筛选借鉴。
没啥可描述的, 1000多个关键词, 天朝程序员必备
对文章进行扫描并分析,检查是否存在敏感词汇并报告出现次数。 使用图形用户界面实现。 任意选择一个文本文件,分析该文件,如果存在敏感词汇,报告每个词 出现的次数。敏感词汇保存在sentive.t
过滤敏感词,解决过滤敏感词,如论坛上发帖那种的敏感词
词库+网站敏感词词库包含:网站违禁词库.txt约10wCiKu4.txt约180w
这是一个微博敏感词搜索程序,把需要搜索的敏感词存'weibo.positive.train'里,每隔一定时间从微博API接口申请chunk,利用positive和negative结合的方法,完全结果输
本代码实现了敏感词检测。findcode是一个用来将敏感词与句子中排序后的单词先按字母顺序排序然后进行逐一比较的函数;如果两者相同,则return1;用数组下标0-25分别表示a-z字母,对应的每个下
已在项目中使用,绝对是你想要的,高效的DFA算法实现的敏感词过滤功能。
WM算法实现_敏感词过滤,java版本敏感词库为XML格式