针对网页内容相似重复的特点,提出了一种改进算法对网页进行去重处理。该方法能够有效地对网页进行去重,并能对网页信息进行冗余识别处理。实验结果表明,与原有网页去重算法相比,该算法的执行效果提高了14.3%,对网页去重有了很明显的改善。