机器学习中模型训练是必需的,在模型训练中存在两类典型的问题: 欠拟合 (underfitting) 模型无法得到较低的训练误差 过拟合 (overfitting) 模型的训练误差远小于它在测试数据集上的误差 实际训练过程中可能会出现两类问题的并发症,而且会有多种因素直接或间接地导致这种情况出现 影响因素 介绍其中两个因素:模型复杂度和训练数据集大小。 模型复杂度 以多项式函数拟合为例。给定一个由标量数据特征xxx和对应的标量标签yyy组成的训练数据集,多项式函数拟合的目标是找一个KKK阶多项式函数 y^=b+∑k=1Kxkwk \hat{y} = b + \sum_{k=1}^K x^k w