计算和通信的结合建立了一个以信息为基础的新领域。但绝大多数信息尚处于原始状态,即以数据的形式存在的状态。假如我们将数据定义为被记录下的事实,那么信息就是在这些记录事实的数据中所隐藏的一系列模式或预期。在数据库中蕴藏了大量具有潜在重要性的信息,这些信息尚未被发现和利用,我们的任务就是将这些数据释放出来。数据挖掘是将隐含的、尚不为人知的同时又是潜在有用的信息从数据中提取出来。为此我们编写计算机程序,自动在数据库中筛选有用的规律或模式。假如能发现一些明显的模式,则可以将其归纳出来以对未来的数据进行准确预测。当然,数据挖掘结果中肯定会出现一些问题,比如许多模式可能是不言自明的或者没有实际意义的。另一些还有可能是虚假的,或者由于某些具体数据集的偶然巧合而