网啦搜索引擎系统由四个子系统构成,分别是:网页抓取子系统、数据搬运子系统、WEB搜索子系统、数据库引擎。 • 网页抓取子系统:英文名Spider,用于抓取互联网上的网页,编码并存放到本地磁盘缓冲中。本子系统运行在多线程模式下,根据服务器性能,一次可以开启多达2000个线程(默认推荐10个),一个线程执行一个单独的抓取任务,多个线程就相当于多个抓取任务同时运行,大大提高抓取网页的效率。 • 数据搬运子系统:英文名Carrier,把本地磁盘缓冲中存放的网页一次性加入到数据库中。本子系统通过BCP把所有网页批量存入数据库,根据实际测试,其执行效率是数据库插入操作的十倍,大大节省操作时间,并且大大降低