od database:用于公共目录索引的分布式搜寻器数据库和Web前端 源码
OD数据库 OD数据库是一个Web爬网项目,旨在从打开的目录(配置错误的Apache / Nginx / FTP服务器,或更常见的是各种公共服务的镜像)中索引大量文件链接及其基本元数据。 每个搜寻器实例均从中央服务器获取任务,并在完成后推送结果。 一个实例可以同时抓取数百个网站(FTP和HTTP(S)),并且中央服务器每秒可以提取成千上万个新文档。 数据被索引到elasticsearch中,并通过Web前端(当前托管在 )提供。 当前,大约有19.3亿个文件被索引(原始数据总计约300Gb)。 原始数据以CSV文件形式提供。 贡献 欢迎提出建议/疑虑/公关 安装(Docker) git
用户评论
推荐下载
-
分布式多层数据库开发
delphi分布式多层开发基础教程。给初学者提供一个简单的实例,给初学者一个初步印象!
27 2019-07-06 -
分布式数据库ppt讲稿
分布式数据库课堂讲稿,ppt形式。详细介绍了分布式数据库,概念,定义,基础理论知识,内容比较全。
18 2019-07-09 -
分布式数据库知识资料
分布式数据库.PPT分布式数据库知识资料
16 2019-06-01 -
postgresql分布式数据库架构
Postgresql distributed database architecture
35 2019-06-23 -
分布式时序数据库发布
发布了一个分布式时序数据库
1 2024-04-22 -
高性能分布式云数据库
高性能分布式云数据库介绍及案例 云计算,大数据,云服务,分布式,NoSQL
34 2018-12-25 -
分布式数据库课件学习
分布式 数据库 课件 学习 平常学习的 课件
14 2021-04-22 -
AzureSearchCrawler使用Abot的简单Web搜寻器它将页面内容索引到Azure搜索中源码
关于 是用于Web和移动应用程序开发的云搜索服务。 该项目可帮助您将网站中的内容获取到Azure搜索索引中。 它使用来爬网网站。 对于每个页面,它以可自定义的方式提取内容并将其索引到Azure搜索中。
7 2021-02-20 -
FiloDB分布式Prometheus时间序列数据库源码
菲洛数据库 分布式,与Prometheus兼容,实时,内存中,可大规模扩展的多模式时间序列/事件/操作数据库。 _______ __ ____ ____ / ____(_) /___ / __ \/
15 2021-02-19 -
淘宝内核月报的目录索引
淘宝数据库的内核月报非常值得学习和借鉴(地址:http://mysql.taobao.org/monthly/),但首页都是以年份和月份为索引,搜索起来比较耗时,这里做了一张表 可以以文章题目为索引查
92 2019-03-11
暂无评论