讨论了:当模型在训练数据集上更准确时,它在测试数据集上却不一定更准确的原因。 3.11.1 训练误差和泛化误差 训练误差(training error):模型在训练数据集上表现出的误差。 泛化误差(generalization error):模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。 在机器学习里,我们通常假设训练数据集(训练题)和测试数据集(测试题)里的每一个样本都是从同一个概率分布中相互独立地生成的。 机器学习模型应关注降低泛化误差。 3.11.2 模型选择 在机器学习中,通常需要评估若干候选模型的表现并从中选择模型。这一过程称为模型选择(mode