Top-4-pct_Titanic_Kaggle `` Kaggle的标志性入门级比赛)在2020/05年排名前4%(833/22219)。 该分析是使用R进行的。 大纲 排行 数据集 脚步 重现Kaggle提供的训练数据的结果 公众排行榜在Kaggle上的排名和得分 细节6-1功能介绍6-2缺失值估算6-3特征工程6-4特征提取6-5选型 1.排名 2.数据集 此处的泰坦尼克号数据集是在2020/05年从Kaggle检索的。 请注意,泰坦尼克号数据集现已更改,因此我在泰坦尼克号中的前4%排名消失了。 Kaggle删除了可能是为了防止作弊的功能“名称” ,并对其进行了重新采样以获取新数据。 3.步骤 在三向拆分下执行10倍交叉验证,以选择最佳预测模型。 (在Kaggle提供的训练数据中执行k倍CV。) 报告交叉验证(训练,验证, n折交叉验证中的测试)的平均准确性。 将所选模型应用于