蜘蛛演示 网络爬虫 概念: 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取骨骼信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁蚁,自动索引,模拟程序或蠕虫。 爬虫的具体步骤: 1,数据采集,经过一定的逻辑和策略,循环抓取网页上的数据,工作过程就像Ctrl + a-> Ctrl + c-> Ctrl + v; 2,解析,分析采集到的数据集,使用一定的规则或语法,提取相关的信息; 3,存储,将提取出的信息以我们想要的方式存储到数据库中,方便后续使用。 Web魔术师: WebMagic是一个简单的灵活的Java爬虫框架,项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的,可以的爬虫实现,而扩展部分则包括一些便利的,实用性的功能。( WebMagic的结构分为下载器,PageProc