Titanic-Competition-Kaggle 遵循了 Trevor Stephens 的入门教程,提供了一个系统的机器学习流程。教程内容如下:

第1部分:启动R

开始安装并熟悉 R 语言,为数据分析和建模做准备。

第2部分:性别类模型

通过性别分类构建最基础的预测模型。简单分析可以看出性别在 Titanic 数据集中对生存的影响。

第3部分:决策树

介绍决策树模型,它能够基于乘客的特征生成分类规则,预测生存率。

第4部分:特征工程

特征工程 是数据科学中“艺术的一部分,科学的一部分”的技能。通过原始数据集中的信息进行加工,创建新的特征,提升模型的表现力。需要深入理解每个变量,结合数据集的直觉,对特征进行处理和转换。

第5部分:随机森林

构建更加复杂的模型——随机森林。随机森林作为集成算法,可以通过多个决策树模型组合预测,提升准确率。

当前项目正处于深入研究阶段,结合特征工程和随机森林,将为 Titanic 生存预测提供更高的准确性。