薪资预测 根据职位描述预测薪水 定义问题 职位的薪资和两者之间的差异取决于多种因素,包括技能,经验和职称本身。 在给定可用的数据集的情况下,我们希望估算工作薪资以了解推动薪资的关键特征,并部署模型解决方案来预测薪资以基于这些特征衡量合理的薪资。 方法 1.数据加载 'train_features':每个工作ID的每个功能的训练数据集:工作名称,公司,学位,专业,行业,经验的年限以及与大都市的距离(英里)。 'train_salaries':每个工作ID的薪水(目标变量)训练数据集 'test_features':等效于功能训练集的测试数据集。 2.数据清理 除了查找每个数据集的数据类型和大小外,数据清理还涉及发现和处理丢失的数据,重复项,无效数据(例如,工资<= 0)和可疑的异常值。 较低的异常值是低于25个百分点的异常值-1.5 *四分位间距; 以及较高的离群值在75个百分位数-1.5