openews:实验性NLP(自然语言处理)项目旨在捆绑各种分散的更新 源码
Openews 基于NLP(自然语言处理)的实验项目,旨在捆绑来自各种来源的新闻。 建筑学 成分 MongoDB-数据库层。 Redis-对刮板作业进行排队。 Flask-REST / Web服务。 概念 报废者:新的收藏家。 DataProcessor :处理由废料收集的原始数据并对其进行结构化(这是NLP的一部分)。 职位:排队的刮板工人。 Worker :一个Python进程,正在运行,等待Jobs添加到队列中,然后执行它们。 服务器:管理所有服务的RESTful Web服务器。 数据流 Scrappers通过RQ排队作为redis的到scrapper_jobs作业队列中的每个X分钟(调度由cron或等效方法)一次。 当工作由工人执行时,爬虫开始从各种资源中收集数据(新闻),每一个都异步地收集自己的资源( gevent )。 每个抓取工具将其抓取的数据存储在scrappers
文件列表
openews-master.zip
(预估有个49文件)
openews-master
.gitignore
769B
Makefile
1KB
.pep8
26B
server
__init__.py
291B
db.py
3KB
commands
__init__.py
1B
logconfig-production.json
1KB
暂无评论