基于正文结构和长句提取的网页去重算法,黄仁,冯胜,爬虫搜集的重复网页不仅浪费了存储和带宽资源,而且增加了用户的浏览负担。针对网页重复的特点和网页正文的结构特征,提出了一种