tech.ml.dataset tech.ml.dataset是用于数据处理和机器学习的Clojure库。 数据集目前是内存中的列式数据库,我们支持从文件或输入流进行解析。 我们支持以下格式:原始/压缩后的csv / tsv,xls,xlsx,json和映射序列作为输入源。 作为单独的库提供。 内存中的数据大小(原始数组),日期时间类型通常转换为整数表示形式,并且将字符串加载到字符串表中。 这些功能一起极大地减少了内存中的工作集大小。 由于数据以列形式存储,因此对数据集的列操作非常快。 转换回地图序列非常有效,我们支持将数据集写回给csv,tsv和gzip压缩的数据集。 升级了对支持。