数字研究书籍ETL管道 一个容器化的python应用程序,用于从多个源项目中导入数据并将此数据转换为可通过API(为供电)的统一格式。 该服务旨在作为Kubernetes集群运行,但可以部署在任何容器化环境中。 该项目的总体目标是通过单个门户提供对开放源代码和公共领域专论的访问,使研究人员,学生和其他人更容易发现本来就不知道的晦涩的作品和新数字化的资料的。 Craft.io概述 此ETL管道分几个阶段运行,以逐步增强从源项目接收的数据。 这使我们既可以对来自各种来源(自然而然地以多种格式存在)的数据进行规范化,也可以以加法方式增强此数据,从而将结果记录呈现给用户。 目的是产生“ FRBRized”数据库。 在这些记录中,每个源记录都表示为一个Item (可以在网上实际读取的东西),将其分组为Edition (例如1917年的X版本),然后将其分组为Work (例如Moby Dick,