主题爬虫的完整实现,具有文章内容判重,主题相似度计算,url去重,通用正文抽取算法,网页内容分词,关键词自动抽取等功能。