目录 1 摘要 3 第一章 引言 4 第二章 搜索引擎的结构 5 2.1系统概述 5 2.2搜索引擎的构成 5 2.2.1网络机器人 5 2.2.2索引与搜索 5 2.2.3 Web服务器 6 2.3搜索引擎的主要指标及分析 6 2.4小节 6 第三章 网络机器人 7 3.1什么是网络机器人 7 3.2网络机器人的结构分析 7 3.2.1如何解析HTML 7 3.2.2 Spider程序结构 8 3.2.3如何构造Spider程序 9 3.2.4如何提高程序性能 11 3.2.5网络机器人的代码分析 12 3.3小节 14 第四章 基于LUCENE的索引与搜索 15 4.1什么是LUCENE全文检索 15 4.2 LUCENE的原理分析 15 4.2.1全文检索的实现机制 15 4.2.2 Lucene的索引效率 15 4.2.3 中文切分词机制 17 4.3 LUCENE与SPIDER的结合 18 4.4小节 21 第五章 基于TOMCAT的WEB服务器 22 5.1什么是基于TOMCAT的WEB服务器 22 5.2用户接口设计 22 5.3.1客户端设计 22 5.3.2服务端设计 23 5.3在TOMCAT上部署项目 25 5.4小节 25 第六 章 搜索引擎策略 26 6.1简介 26 6.2面向主题的搜索策略 26 6.2.1导向词 26 6.2.3权威网页和中心网页 27 6.3小节 27 参考文献 28