大数据预处理之数据清洗
现实世界的数据常常是不完全的、有噪声的、不一致的。数据清洗过程包括遗漏数据处理,噪声数据处理,以及不一致数据处理。本节介绍数据清洗的主要处理方法。 遗漏数据处理 假设在分析一个商场销售数据时,发现有多个记录中的属性值为空,如顾客的收入属性,则对于为空的属性值,可以采用以下方法进行遗漏数据处理。 1)忽略该条记录 若一条记录中有属性值被遗漏了,则将此条记录排除,尤其是没有类别属性值而又要进行分类数据挖掘时。 当然,这种方法并不很有效,尤其是在每个属性的遗漏值的记录比例相差较大时。 2)手工填补遗漏值 一般这种方法比较耗时,而且对于存在许多遗漏情况的大规模数据集而言,显然可行性较差。 3)利用默
暂无评论