数据预处理管道 这是用于处理异构数据(例如二进制,分类和数字数据)的。 该特定管道中的步骤仅用于演示目的,因此强烈建议您修改管道以适合您的分析需求。 数据 示例包含一个目标列y和八个特征列X的十个组成样本,它们分别属于各种数据类别。 目标(y) 目标列有两类:正类和负类,分别标记为1和0。 功能(X) 二进制(功能1和2) 这些是1和0的特征,我们将其值保持不变 分类的 数值(特征3和4):这些特征至少具有三个数值类别,并且没有顺序 文字(功能5和6):这些功能至少具有三个文字类 我们将这些特征转换为一和零的虚拟变量 由于存在多重共线性问题,我们还删除了一个虚拟变量,因此剩下n-1个虚