orc:Apache ORC 用于Hadoop工作负载的最小最快的列式存储 源码
ORC是一种专为Hadoop工作负载设计的自描述类型感知列式文件格式。 它针对大型流读取进行了优化,但具有集成支持,可快速查找所需的行。 以列格式存储数据使阅读器仅可以读取,解压缩和处理当前查询所需的值。 由于ORC文件可识别类型,因此编写器为该类型选择最合适的编码,并在写入文件时建立内部索引。 谓词下推使用这些索引来确定特定查询需要读取文件中的哪些条带,并且行索引可以将搜索范围缩小到特定的10,000行集合。 ORC支持Hive中的完整类型集,包括复杂类型:结构,列表,映射和联合。 ORC文件库 该项目同时包括Java库和C ++库,用于读写优化行列(ORC)文件格式。 C ++和Java库
文件列表
orc:Apache ORC-用于Hadoop工作负载的最小,最快的列式存储
(预估有个1782文件)
TestMatch.cc
194KB
TestRleDecoder.cc
175KB
TestDecompression.cc
29KB
TestByteRle.cc
86KB
TestColumnPrinter.cc
21KB
TestWriter.cc
63KB
TestPredicateLeaf.cc
35KB
TestInt128.cc
22KB
TestColumnReader.cc
180KB
TestSearchArgument.cc
22KB
暂无评论