本文在利用语义和规则的基础上,提出了一个Web网页信息细粒度抽取的方法。方法首先,利用Web网页的结构和HTML标签信息进行网页的粗粒度信息抽取;其次,结合网页标签、结构和文本语义将粗粒度信息进行文本标识和分割,形成语义上紧密相关的标识文本;然后,根据语义解释器,依次识别出文本中的属性项;最后利用语义和规则,确定属性和属性值对。实验证明,该方法逐步细化分解网页,有效的利用了网页潜在的语义信息,拥有不依赖网页类型、结构,适用性好的优点。实验表明该方法提取正文细粒度精确度达到了90%。