论文研究 基于结构信息和时域信息的垃圾网页检测技术.pdf
提出一种将结构信息和时域信息综合运用来检测Spam技术的方法,并针对目前流行的Spam技术,从四个月的网络链接图中提取大量的结构和时域信息特征,训练一组检测Spam技术的网页分类器,取得了很好的实验结果。全局数第一类类网站三类冈幻第类训的数俤类川陈数鷗三类训D训练数据集图三种类型训练数据的炸备过程待预测网站后则在一属于第一关一分类器预测—属于第二我息分类器预测」桶号[类口圾网站囗青诓网站□圹圾网站口普通网站图3IIN分在图2双站预测流程图分布表7排名前1000个网站统汁表随机的1000个网统讠网站类型网站类型垃圾网应圾网站正常网站正常树站不能确定的网站不能确定的网站元法打厂的网站天法开的
暂无评论