Baseball_Classification 源码
棒球分类 数据集由18个要素和1340条记录组成。 数据集的形状为1340 * 18。 目标列是Hall_of_Fame,它包含三个类0,1和2。我们有一个不平衡的数据集,其中大多数记录都属于0类。 采取的方法: 通过分组“位置”(Position)列并使用“均值”(Mean)填充缺失值来填充缺失值。 使用一键编码将分类值转换为数值。 我将数据分层,因为我们有一个不平衡的数据集,其中大多数类为0。 数据已分为培训(75%)和测试(25%)数据,后来使用MinMax缩放器对数据进行了标准化。 通过使用Scikit-learn的程序包,运行了不同的分类模型,例如K邻居分类器,Softmax回归,SVM等。 使用Grid搜索和10倍交叉验证来调整参数。 发现决策树分类器给出了94%的最高准确度。 检查Adaboosting,装袋和粘贴是否提高了准确性。 将PCA应用于数据集并
文件列表
Baseball_Classification-master.zip
(预估有个3文件)
Baseball_Classification-master
README.md
3KB
Baseball_Classification_Sahiti.ipynb
428KB
baseball1.csv
119KB
暂无评论