从网上收集到的非常不错的:基于XML 的网页信息抽取.pdf文章。