当前,W eb 已经成为人们获取信息的主要渠道之一. 然而, 用于表达W eb 页面信息的HTML 语言存在着与生俱来的缺点. HTML 的“标记”只是告诉浏览器软件如何显示所定义的信息, 却不包含任何语义. 因此由HTML 语言所表述的W eb 页面经过浏览器分析后只适合人们浏览, 不适合作为一种数据交换的方式由机器处理. 该文以文档对象模型DOM 为基础, 把所要提取的信息在DOM 层次结构中的路径作为信息抽取的“坐标”, 并以这个基本原理为基础设计了一种归纳学习算法来半自动地生成提取规则, 然后根据提取规则生成Java 类. 生成的Ja2va 类可以作为W eb 数据源包装器组成的重要构