由于各种各样的原因,真实世界中的许多数据集都包含缺失数据,这些数据经常被编码成空格、nans或者是其他的占位符。当每个属性缺少值的百分比变化很大时,它的性能特别差。因此,虽然该方法很简单,但是它十分不可靠。可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。例如,利用数据集中其他顾客的属性,可以构造一颗决策树来预测income的缺失值。该类也兼容不同的缺失值编码。

python 缺失值处理的方法(Imputation)

python 缺失值处理的方法(Imputation)