针对传统的主题爬虫对网页信息缺乏在知识层面上的处理和理解的问题进行了研究,提出了一种面向增量同生主题的维吾尔文爬虫,通过建立一个增量主题词库优化传统的主题模型,来描述维吾尔文关键词的应用语境及场景,提高了计算网页相关度的准确率。用改进的IC主题敏感算法来预测子页面优先级,过滤无关的网页地址。依据上述方法编写爬虫系统,用构建的维吾尔文语料库进行实验,表明了基于此模型的爬虫具有更好的稳定性和准确度。