2.1关联规则及现存问题关联规则是A=>B形式的蕴涵式,关联规则挖掘分为两个步骤:第一步是识别所有频繁项集,即支持度不小于用户指定的最小支持度的项集;第二步是从频繁项集中构建置信度不低于用户给定最小置信度的规则,即强规则。基于支持度-置信度框架理论的关联规则挖掘方法存在以下问题:(1)无法有效发现低支持度高置信度的有趣规则。基于支持度-置信度框架理论的关联规则挖掘方法找到的强规则必须同时满足最小支持度阈值和最小置信度阈值,然而人们通常感兴趣的规则往往是低支持度高置信度的。例如,超市中的物品A和B销售量虽然很低,但经常同时被顾客购买,管理人员希望找出这种低支持度高置信度的规则。(2)无法确定“相互依赖”规则。关联规则反映了A、B同时出现的概率和A出现条件下B出现的条件概率。这样的规则只能确定A对B的“依赖”,无法同时确定B对A的“依赖”,然而人们通常关注的是“相互依赖”规则。例如,中药药对中,药物A和B必须“相互依赖”,如果A和B是药对,则A通常与B配伍,同时B也通常与A配伍。如果只是A通常与B配伍,而B并不常与A配伍,则A和B不是药对。