本次银联数据分类练习主要通过构建决策树模型成功预测逾期还款情况。在进行模型构建前,我们首先通过pandas读取数据集,并进行数据缺失值处理和属性筛选。其中,分类属性缺失值直接删除,连续属性缺失值采用K近邻算法进行插值。同时,对数据集中的分类变量进行Onehot编码处理,并通过PCA降维将数据维度降为6。由于原始数据集中未逾期的数据较多,我们采用SMOTE抽样技术平衡数据集。最后,我们通过熵调参构建决策树模型,其中最大深度为12,最小分裂叶节点为0.008。模型预测效果较好,预测精确率达到0.63,召回率达到0.67,F1得分达到0.65,AUC面积为0.7227,KS值为0.2317。通过这次实战分享,我们深入掌握了Jupyter Notebook在机器学习中的应用技巧。