Openews 基于NLP(自然语言处理)的实验项目,旨在捆绑来自各种来源的新闻。 建筑学 成分 MongoDB-数据库层。 Redis-对刮板作业进行排队。 Flask-REST / Web服务。 概念 报废者:新的收藏家。 DataProcessor :处理由废料收集的原始数据并对其进行结构化(这是NLP的一部分)。 职位:排队的刮板工人。 Worker :一个Python进程,正在运行,等待Jobs添加到队列中,然后执行它们。 服务器:管理所有服务的RESTful Web服务器。 数据流 Scrappers通过RQ排队作为redis的到scrapper_jobs作业队列中的每个X分钟(调度由cron或等效方法)一次。 当工作由工人执行时,爬虫开始从各种资源中收集数据(新闻),每一个都异步地收集自己的资源( gevent )。 每个抓取工具将其抓取的数据存储在scrappers