1. 单值列缺乏信息,应忽略。

  2. 几乎不相同的列妨碍规律提取。

  3. 提取地理信息等重要特性作为派生变量。

  4. 异常值定义为偏离平均值超过3倍标准差。

  5. 在正态分布下,距离平均值3倍标准差之外的值出现概率小于0.003。