goose.zip,goose最初是一个用java编写的文章提取器,最近(2011年8月)已经转换为scala项目。它的任务是获取任何新闻文章或文章类型的网页,不仅提取文章的主体,而且还提取所有元数据和最可能的图像候选。scala中的html内容/文章提取器-开源自gravitylabs-http://gravity.com