基于网页DOM树节点路径相似度的正文抽取
由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路径的相似度抽取正文。通过对不同类型的中文新闻网站上的1 000个网页进行实验,结果表明该方法对于97.6%的网页都能够去除大部分噪声并保持正文内容的完整性,正文抽取结果有93.30%的准确率和95.59%的召回率。所提算法对不同类型的网页都有较好的适应性。
用户评论
推荐下载
-
相似度查询
相似度查询同位素算法比较
21 2020-05-14 -
相似度综述
本人从事图像处理与理解研究,自己汇总的各种相似度测度,文档达38页
30 2018-12-08 -
代码相似度
来自浩瀚的互联网络。 一个简单的计算代码相似度的小程序。
63 2018-12-24 -
相似度程序
相似度程序,可调用子程序cityblock。
51 2018-12-25 -
相似度算法
a=[01,02,04,06],b=[09.08,04,07].计算a,b的相似度。用户门户网站推荐,根据个人行为推荐。
73 2018-12-24 -
结构相似度
关于经典的图像处理,评价方法,从视觉差异化到结构相似度
65 2019-05-05 -
词语相似度
词语的相似度计算,句子相似度计算,帮助大家做文本挖掘方面的工作
32 2019-06-05 -
相似度计算
相似度计算
45 2019-06-05 -
余弦相似度
用余弦相似度算法写的c++程序,计算如“我 爱 看 电视”和“我 不 爱 看 电影”之间的余弦相似度。由于没有分词程序,所以需要用空格手动分词
53 2019-01-01 -
基于HOWNET计算词语相似度_java
本代码是基于HowNet来计算词语间相似度的java版本,正确已通过测试可以运行,直接调用接口即可计算词语间相似度
39 2018-12-08
暂无评论