特征工程.ipynb

zhengxuanbing 26 0 IPYNB 2020-06-21 06:06:09

异常处理: 通过箱线图(或3-Sigma)分析删除异常值; BOX-COX转换(处理有偏分布); 长尾截断; 特征归一化/标准化: 标准化(转换为标准正态分布); 归一化(抓换到[0,1]区间); 针对幂律分布,可以取log 数据分桶: 等频分桶; 等距分桶; Best-KS分桶(类似利用基尼指数进行二分类); 卡方分桶; 缺失值处理: 不处理(针对类似XGBoost等树模型); 删除(缺失数据太多); 插值补全,包括均值/中位数/众数/建模预测/多重插补/压缩

用户评论
请输入评论内容
评分:
暂无评论