本项目是基于hadoop搜索引擎的离线处理程序,主要包含三部分 1.网页信息过滤 2.生成倒排索引文件 3.生成二级索引文件;