drb etl pipeline:用于将记录从外部源加载到DRB集合并通过API提供访问权限的应用程序 源码
数字研究书籍ETL管道 一个容器化的python应用程序,用于从多个源项目中导入数据并将此数据转换为可通过API(为供电)的统一格式。 该服务旨在作为Kubernetes集群运行,但可以部署在任何容器化环境中。 该项目的总体目标是通过单个门户提供对开放源代码和公共领域专论的访问,使研究人员,学生和其他人更容易发现本来就不知道的晦涩的作品和新数字化的资料的。 Craft.io概述 此ETL管道分几个阶段运行,以逐步增强从源项目接收的数据。 这使我们既可以对来自各种来源(自然而然地以多种格式存在)的数据进行规范化,也可以以加法方式增强此数据,从而将结果记录呈现给用户。 目的是产生“ FRBRized”数据库。 在这些记录中,每个源记录都表示为一个Item (可以在网上实际读取的东西),将其分组为Edition (例如1917年的X版本),然后将其分组为Work (例如Moby Dick,
文件列表
drb-etl-pipeline:用于将记录从外部源加载到DRB集合并通过API提供访问权限的应用程序
(预估有个184文件)
Dockerfile
130B
test_oclcClassify_manager.py
13KB
test_nypl_process.py
12KB
test_sfrCluster_process.py
12KB
test_muse_process.py
15KB
test_api_es.py
26KB
test_sfrRecord_manager.py
17KB
springer_book_9783642208973.html
76KB
openeditions_book_14472.html
201KB
muse_book_42.html
49KB
暂无评论