Udacity Datalake Spark:具有Spark的Udacity数据湖源码

qqsaint1256 6 0 ZIP 2021-03-02 01:03:04

Sparkify的Data Lake ELT流程概括介绍该项目将为Sparkify提取歌曲和日志数据,以使其更易于理解其数据并对该数据进行分析。该项目正在使用EMR将数据处理到S3上。入门该ELT过程是一个非常简单的过程。如果这是您第一次运行此项目,则应复制dl.cfg.example文件,并为项目dl.cfg配置参数。然后在您的本地计算机上: python main.py 该过程将检查目标存储桶是否存在。如果存在,则该进程将删除存储桶以及该存储桶中的所有内容,然后在s3上为我们的进程创建一个文件夹结构。该过程将为我们的表,emr配置(引导文件)和我们的pyspark代码创建文件夹,然后上传所有需要的文件以运行该过程。请注意,此过程使用默认的EMR作业流程角色(EMR_EC2_DefaultRole),默认的EC2服务角色(EMR_DefaultRole)和默

文件列表

Udacity-Datalake-Spark：具有Spark的Udacity数据湖 (预估有个490文件)

_SUCCESS 0B

.part-00006-39a513df-1b59-4ef5-a004-aebb185a2ac5.c000.snappy.parquet.crc 56B

.part-00009-39a513df-1b59-4ef5-a004-aebb185a2ac5.c000.snappy.parquet.crc 44B

.part-00004-39a513df-1b59-4ef5-a004-aebb185a2ac5.c000.snappy.parquet.crc 64B

.part-00005-39a513df-1b59-4ef5-a004-aebb185a2ac5.c000.snappy.parquet.crc 64B

.part-00011-39a513df-1b59-4ef5-a004-aebb185a2ac5.c000.snappy.parquet.crc 40B

.part-00000-39a513df-1b59-4ef5-a004-aebb185a2ac5.c000.snappy.parquet.crc 84B

.part-00008-39a513df-1b59-4ef5-a004-aebb185a2ac5.c000.snappy.parquet.crc 44B

.part-00001-39a513df-1b59-4ef5-a004-aebb185a2ac5.c000.snappy.parquet.crc 72B

.part-00007-39a513df-1b59-4ef5-a004-aebb185a2ac5.c000.snappy.parquet.crc 52B

.part-00003-39a513df-1b59-4ef5-a004-aebb185a2ac5.c000.snappy.parquet.crc 64B

.part-00002-39a513df-1b59-4ef5-a004-aebb185a2ac5.c000.snappy.parquet.crc 68B

.part-00012-39a513df-1b59-4ef5-a004-aebb185a2ac5.c000.snappy.parquet.crc 36B

.part-00010-39a513df-1b59-4ef5-a004-aebb185a2ac5.c000.snappy.parquet.crc 44B

_SUCCESS 0B

.part-00161-0d511e38-3b53-4d0e-ba65-d26bab18a8ff.c000.snappy.parquet.crc 36B

_SUCCESS 0B

dl.cfg 420B

用户评论

暂无评论

Learning Spark书源码Spark快速大数据分析源码

Learning Spark书源码，中文书名，Spark快速大数据分析源码

23 2019-04-12
spark3.0.1Spark3.0.1源码源码

阿帕奇火花 Spark是用于大规模数据处理的统一分析引擎。它提供了Scala,Java,Python和R中的高级API,以及优化的引擎,该引擎支持用于数据分析的通用计算图。它还支持丰富的高级工具集

24 2021-04-26
spark sourcecodes analysis Spark源码剖析源码

spark-sourcecodes-analysis Spark源码剖析

14 2021-04-25
spark2.4.7spark2.4.7源码源码

阿帕奇火花 Spark是用于大数据的快速通用集群计算系统。它提供了Scala,Java,Python和R中的高级API,以及优化的引擎,该引擎支持用于数据分析的通用计算图。它还支持丰富的高级工具集

22 2021-05-08
DENDCapstone Project Udacity数据工程ND源码

DEND-Capstone-Project Udacity数据工程ND

14 2021-03-21
spark源码

Spark是一个开源,跨平台IM客户端。它的特性支持集组聊天,电话集成和强大安全性能。如果企业内部部署IM使用Openfire+Spark是最佳的组合。

20 2020-08-21
Spark源码....

Spark源码

33 2019-06-01
udacity data engineering capstone Udacity数据工程纳米级顶石项目源码

项目5-顶石概述该项目的目的是为全球陆地温度和美国人口统计数据集创建一条ETL管道,以形成有关美国气候变化以及人口分析的分析数据库。管道工具与技术该项目的最初目标是以一种使数据使用者能够轻松

18 2021-04-04
wtm udacity scholars nanodegree resources Udacity纳米学位的资源列表源码

wtm-udacity-scholars-nanodegree-resources:Udacity纳米学位的资源列表

11 2021-02-08
Udacity DevOps Capstone Udacity的云开发纳米顶石项目源码

Udacity-DevOps-Capstone Udacity的云开发纳米顶石项目目标在AWS中工作使用CircleCi实施持续集成和持续部署建筑管道与Ansible和CloudFormat

23 2021-04-30

Udacity Datalake Spark:具有Spark的Udacity数据湖 源码

文件列表

用户评论

推荐下载

Udacity Datalake Spark:具有Spark的Udacity数据湖源码