为了提取知识和做出预测,机器学习使用数学模型来拟合数据。这些模型将特征作为输 入。特征就是原始数据某个方面的数值表示。在机器学习流程中,特征是数据和模型之间 的纽带。特征工程是指从原始数据中提取特征并将其转换为适合机器学习模型的格式。它 是机器学习流程中一个极其关键的环节,因为正确的特征可以减轻构建模型的难度,从而 使机器学习流程输出更高质量的结果。机器学习从业者有一个共识,那就是建立机器学习 流程的绝大部分时间都耗费在特征工程和数据清洗上。然而,尽管特征工程非常重要,专 门讨论这个话题的著作却很少。究其原因,可能是正确的特征要视模型和数据的具体情况 而定,而模型和数据千差万别,很难从各种项目