rough集和数据挖掘知识获取课件

十三伯爵 31 0 RAR 2018-12-27 15:12:05

智能信息处理是当前信息科学理论和应用研究中的一个热点领域，随着过去几十年中人们在专家系统、知识工程、人工神经网络、模糊集合等众多领域的不断实践和探索，取得了很多很好的成绩。随着信息时代的到来，信息量不断增长，对信息分析工具的要求也越来越高，人们希望自动地从数据中获取其潜在的依赖模型。这样，大量的数据就无须人的处理，甚至无须人的观察。因此，研究能够从大量信息中形成实际概括(归纳)的系统就显得越来越重要。虽然已经有很多对数据进行分析的简单统计技术，但高级的智能数据分析技术还远没有成熟。因此，数据信息的产生和对它的理解之间的差距越来越大。 Rough集（Rough Sets，有的也称粗集、粗糙集）理论是由波兰华沙理工大学Pawlak教授于80年代初提出的一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方法，近年来得到国际上众多学者的重视。我国也在国家自然科学基金、国家863计划和一些省市科学研究基金的支持下开展了一定的研究工作，逐渐取得了一些研究成果。 Rough集的研究对象是由一个多值属性（特征、症状、特性等）集合描述的一个对象（观察、病历等）集合。对于每个对象及其属性，都有一个值作为其描述符号。对象、属性和描述符是表达决策问题的3个基本要素。这种表达形式也可以看成为一个二维表格，表格的行与对象相对应，列对应于对象的属性。各行包含了表示相应对象信息的描述符，还有关于各个对象的类别成员的信息。通常，关于对象的可得到的信息不一定足以划分其成员类别。换句话说，这种不精确性导致了对象的不可分辨性。给定对象间的一个等价关系，即导致由等价类构成的近似空间的不分明关系，Rough集就用不分明对象类形成的上近似和下近似来描述。这些近似分别对应了确定属于给定类的最大的对象集合和可能属于给定类的最小的对象集合。下近似和上近似的差是一个边界集合，它包含了所有不能确定判定是否属于给定类的所有对象。这种处理可以定义近似的精度和质量。Rough集方法可以解决重要的分类问题，所有冗余对象和属性的约简包含属性的最小子集，能够很好地近似分类，得到可以接受质量的分类。而且，它还可以用决策规则集合的形式表示最重要属性和特定分类之间的所有重要关系。表达形式也可以看成为一个二维表格，表格的行与对象相对应，列对应于对象的属性。各行包含了表示相应对象信息的描述符，还有关于各个对象的类别成员的信息。通常，关于对象的可得到的信息不一定足以划分其成员类别。换句话说，这种不精确性导致了对象的不可分辨性。给定对象间的一个等价关系，即导致由等价类构成的近似空间的不分明关系，Rough集就用不分明对象类形成的上近似和下近似来描述。这些近似分别对应了确定属于给定类的最大的对象集合和可能属于给定类的最小的对象集合。下近似和上近似的差是一个边界集合，它包含了所有不能确定判定是否属于给定类的所有对象。这种处理可以定义近似的精度和质量。Rough集方法可以解决重要的分类问题，所有冗余对象和属性的约简包含属性的最小子集，能够很好地近似分类，得到可以接受质量的分类。而且，它还可以用决策规则集合的形式表示最重要属性和特定分类之间的所有重要关系。

rough集和数据挖掘知识获取 课件

rough集和数据挖掘知识获取课件