文中介绍了数据预处理的基本概念,介绍作为数据预处理基础的描述性数据汇总。描述性数据汇 总帮助我们研究数据的一般特征、识别噪声或离群点,对成功的数据清理和数据集成很有用。数据预处理的方法组织如下:数据清理、数据集成与变换和数据归约。 概念分层可以用作数据归约的一种替换形式,其中低层数据(如年龄的原始值)用高层概念(如青年、中年或老年)替换。这种形式的数据归约,在那里我们讨论使 用数据离散化技术,由数值数据自动地产生概念分层。