此项目旨在运用C4.5决策树算法实现对莺尾花的精准分类。鉴于花萼长度、花萼宽度、花瓣长度、花瓣宽度为连续变量,必须进行离散化处理。利用Gini Index进行离散化时,考虑到分类需分为三类,通过数据可视化揭示,三种花在四个属性上呈现显著的差异。因此,对花萼长度、花萼宽度、花瓣长度、花瓣宽度这四个属性采用两个分界点,使其划分为三类。通过调整决策树的最大深度,得到了不同深度下的训练集和测试集准确率。具体而言,最大深度为2时,训练集准确率达到0.964,测试集准确率为0.895;最大深度为3时,训练集准确率升至0.982,测试集准确率为0.974;最大深度为4时,训练集准确率达到1.000,测试集准确率维持在0.974。
暂无评论