OD数据库 OD数据库是一个Web爬网项目,旨在从打开的目录(配置错误的Apache / Nginx / FTP服务器,或更常见的是各种公共服务的镜像)中索引大量文件链接及其基本元数据。 每个搜寻器实例均从中央服务器获取任务,并在完成后推送结果。 一个实例可以同时抓取数百个网站(FTP和HTTP(S)),并且中央服务器每秒可以提取成千上万个新文档。 数据被索引到elasticsearch中,并通过Web前端(当前托管在 )提供。 当前,大约有19.3亿个文件被索引(原始数据总计约300Gb)。 原始数据以CSV文件形式提供。 贡献 欢迎提出建议/疑虑/公关 安装(Docker) git