基于 Kaggle 竞赛数据,原始数据文件较大,故本数据集只选用了 train.csv 中的 5 万条样本作为模型训练集(train.csv.gzip),1 万条样本作为模型测试集(test.csv.gzip)