rikai:基于Parquet的ML数据格式经过优化可用于处理非结构化数据 源码
:red_exclamation_mark: 该存储库仍处于试验阶段。 不保证API兼容性。 里开 Rikai是一种基于的ML数据格式,旨在大规模处理非结构化数据。 处理ML的大量数据从来都不是一件容易的事,但对于经常处于深度学习应用程序核心的图像和视频而言,尤其如此。 我们正在建立Rikai的两个主要目标: 使ML工程师/研究人员拥有从笔记本到生产的无缝流程,从功能工程(Spark)到培训(PyTorch / Tensorflow)。 启用高级分析功能,以支持更快的主动学习,模型调试以及生产管道中的监视。 当前(v0.0.1)的主要功能: Spark和PyTorch对图像/视频的本机支持:在ETL和培训之间移动时,减少临时类型的转换。 用于大规模处理图像和视频的自定义功能:减少当前处理图像,过滤器/样本视频等所需的样板代码和低级代码。 路线图: TensorFlow集成 数据集中内置的版本控制支持 更加丰富的视频功
文件列表
rikai:基于Parquet的ML数据格式经过优化,可用于处理非结构化数据
(预估有个168文件)
.gitignore
269B
Dockerfile
7KB
Makefile
1KB
org.apache.spark.sql.sources.DataSourceRegister
34B
RikaiExtSqlBase.g4
3KB
RikaiModelSchema.g4
1KB
LICENSE
11KB
setup.cfg
91B
ValidateInstallation.ipynb
4KB
VideoData.ipynb
15KB
暂无评论