系统需求概述要求网络爬虫系统能实时抓取凤凰网、网易新闻、新浪新闻、搜狐新闻等网站的新闻数据,并正确抽取出正文,获取新闻的点击量,实现每日定时抓取。能够对抓取回来的新闻进行中文分词,利用分词结果来计算新闻相似度,并将相似的新闻合并起来,同时也合并点击率。最后,能够将相似的一段事件内的用户点击趋势以合适的形式展现出来。基于网络爬虫技术的新闻分析系统主要由以下几个模块构成:网络爬虫模块、中文分词模块、中文相似度判定模块、数据结构化存储模块、数据可视化展示模块。该系统将广泛用于网络数据的爬取和分析处理。