数据准备管道:有用的预处理管道用于处理异构数据例如二进制分类和数值特征 源码
数据预处理管道 这是用于处理异构数据(例如二进制,分类和数字数据)的。 该特定管道中的步骤仅用于演示目的,因此强烈建议您修改管道以适合您的分析需求。 数据 示例包含一个目标列y和八个特征列X的十个组成样本,它们分别属于各种数据类别。 目标(y) 目标列有两类:正类和负类,分别标记为1和0。 功能(X) 二进制(功能1和2) 这些是1和0的特征,我们将其值保持不变 分类的 数值(特征3和4):这些特征至少具有三个数值类别,并且没有顺序 文字(功能5和6):这些功能至少具有三个文字类 我们将这些特征转换为一和零的虚拟变量 由于存在多重共线性问题,我们还删除了一个虚拟变量,因此剩下n-1个虚
文件列表
data-prep-pipeline-master.zip
(预估有个5文件)
data-prep-pipeline-master
input
data_example.csv
377B
LICENSE
1KB
.gitignore
19B
preprocessing_pipeline.py
7KB
README.md
2KB
暂无评论