基于本体的网络爬虫技术研究

youtanqingfeng 40 0 PDF 2019-07-27 03:07:28

互联网已经成为最大的非结构化数据库,极大方便了信息访问。然而,网络上的信息大多都是无组织的,由于网络的分布式特性,很难对它进行信息和知识管理。因此,如何建立一个智能的信息发现机制很有必要。本文在分析了爬虫工作原理和传统算法后,提出了一种基于本体的网络爬虫的信息发现框架。该框架包含了预处理模块和本体管理模块,定义了网页相关度计算策略,最后通过实验对该框架进行了评估。

用户评论
请输入评论内容
评分:
暂无评论