1. 信息提取 · 文本信息抽取,例如对HTML进行有效信息搜索 · 链接提取,用于自动给页面的链接文本加上链接的标签 · 资源提取,例如对一些图片、声音的资源的处理 · 链接检查,用于检查HTML中的链接是否有效 · 页面内容的监控 2. 信息转换 · 链接重写,用于修改页面中的所有超链接 · 网页内容拷贝,用于将网页内容保存到本地 · 内容检验,可以用来过滤网页上一些令人不愉快的字词 · HTML信息清洗,把本来乱七八糟的HTML信息格式化 · 转成XML格式数据