广域网分布式Web爬虫相对于局域网爬虫的诸多优势,提出了广域网分布式Web爬虫的3个核心问题:Web划分、Agent协同和Agent部署.围绕这3个问题,对目前学术界和商业界出现的多种实现方案和策略进行了全面的综述,深入讨论了研究中遇到的问题与挑战,并论述了广域网分布式Web爬虫的评价模型.最后,对未来的研究方向进行了总结.