基于特征句抽取的网页去重研究