具有高基数特征的规则化目标编码在有监督的机器学习中优于传统方法 该存储库包含论文“规范化的目标编码在具有高基数特征的受监督机器学习中的性能优于传统方法”的代码和结果。 文件夹和文件的描述: 分析/ : high_cardinality_benchmark / : main.R构建包含所有计算作业的batchtools注册表; 源于大多数其他.R脚本 在某些计算群集上运行了作业之后, collect_results.R从注册表中提取结果; 将预处理的结果保存在results.rds中 upload_datasets / : 脚本用于将一些基准数据集上载到OpenML install.R : 在运行基准测试之前用于在计算集群上安装软件包 出版物/ : manuscript.Rmd是一个可重复脚本构建manuscript.pdf; 从分析文件夹加载一些.rds文件 Supplem