用于web信息抽取中解析页面的包:filterbuilder.jar、htmllexer.jar、htmlparser.jar、sitecapturer.jar、thumbelina.jar