Titanic-Competition-Kaggle 遵循了 Trevor Stephens 的入门教程,提供了一个系统的机器学习流程。教程内容如下:
第1部分:启动R
开始安装并熟悉 R 语言,为数据分析和建模做准备。
第2部分:性别类模型
通过性别分类构建最基础的预测模型。简单分析可以看出性别在 Titanic 数据集中对生存的影响。
第3部分:决策树
介绍决策树模型,它能够基于乘客的特征生成分类规则,预测生存率。
第4部分:特征工程
特征工程 是数据科学中“艺术的一部分,科学的一部分”的技能。通过原始数据集中的信息进行加工,创建新的特征,提升模型的表现力。需要深入理解每个变量,结合数据集的直觉,对特征进行处理和转换。
第5部分:随机森林
构建更加复杂的模型——随机森林。随机森林作为集成算法,可以通过多个决策树模型组合预测,提升准确率。
当前项目正处于深入研究阶段,结合特征工程和随机森林,将为 Titanic 生存预测提供更高的准确性。
暂无评论