Parquet格式:Apache Parquet 源码
木地板 Parquet是一种支持嵌套数据的列式存储格式。 实木复合地板元数据使用Apache Thrift进行编码。 Parquet-format项目包含所有Thrift定义,这些定义对于创建Parquet文件的读取器和写入器是必需的。 动机 我们创建Parquet是为了使Hadoop生态系统中的任何项目都可以使用压缩的,高效的列式数据表示形式。 Parquet是从头开始构建的,考虑到了复杂的嵌套数据结构,并使用了Dremel论文中描述的。 我们相信这种方法优于嵌套名称空间的简单扁平化。 Parquet构建为支持非常有效的压缩和编码方案。 多个项目已经证明了对数据应用正确的压缩和编码
文件列表
parquet-format-master.zip
(预估有个44文件)
parquet-format-master
.gitignore
872B
changelog.sh
2KB
LogicalTypes.md
29KB
Makefile
1KB
src
main
resources
META-INF
LICENSE
13KB
暂无评论