项目概况:本项目通过数据预处理、特征工程、模型选择与评估等步骤,针对电信用户的流失情况,建立相应的预测模型,帮助运营商根据客户的预测流失率和真实流失率做出决策,制定针对性的客户召回措施。

开发环境:Jupyter Notebook、Anaconda3应用包

项目描述:

一、获取数据集并预处理:

在网上诸如Kaggle上下载数据集,并对数据进行预处理。

二、根据特征群进行可视化分析:

将数据总体分为三大特征群,逐一分析各特征群下每个特征在客户流失因素上的重要程度,并通过饼状图等可视化分析手段,对各项特征指标有一个直观的认识。

三、特征工程与类别平衡:

通过特征工程处理,并结合皮尔逊相关系数,将无用特征进行剔除并完善字符编码格式。针对数据中不平衡的问题,使用正负样本数相差较多易导致数据倾斜或不准确,进行类别平衡的处理。

四、模型使用与评估:

使用机器学习模型与模型评估方式进行选择,包括逻辑回归、随机森林、AdaBoost以及XGBoost等模型,使用K折交叉验证计算方式,对每个模型进行评估,得出预测模型的准确度,最终选择其中之一进行实际预测,并输出模型中的特征重要性。

五、总结分析与制定决策:

对各客户的预测流失率与真实流失率进行分析,形成关系表。并根据分组情况的结果设定阈值,确定分界点,并制定针对性的客户召回措施,以防止客户的大规模流失。