基于特征码的网页排重算法的设计与实现,刘新生,厉锟,在大规模新闻抓取中,大量重复或者近似文章也频繁出现,这影响了抓取系统的性能,同时也降低了新闻抓取质量,所以有必要在系统中