模型选择、欠拟合和过拟合 训练误差(training error):指模型在训练数据集上表现出的误差。 泛化误差(generalization error):指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。 机器学习模型应关注降低泛化误差。 模型选择 1.验证数据集 我们可以预留一部分在训练数据集和测试数据集以外的数据来进行模型选择。这部分数据被称为验证数据集,简称验证集(validation set)。 2.K折交叉验证 把原始训练数据集分割成K个不重合的子数据集,然后我们做K次模型训练和验证。每一次,我们使用一个子数据集验证模型,并使用其他K-1个子数