特征工程是机器学习中非常重要的一个环节,它的好坏直接影响了机器学习效果的优劣。而特征工程里非常关键的一步就是特征选择。 如果把机器学习比作是一个厨师做菜的过程,那么数据就是原材料(菜),模型可以理解为炒菜的方式(蒸、煮、炒、炖等等),算法就是这个厨师的炒菜水平。特征工程就是前期处理食材的过程,有了食材(数据),首先要看看食材是啥,长什么样(源数据分布情况),然后看看食材是否新鲜,是否有磕碰破损(数据是否有缺失),再然后就是选取适当的部分(比如我炒做鸡蛋,鸡蛋壳肯定不能一起炒吧)完成我们想做的菜。 11.1 子集搜索与评价 对象都有很多属性来描述,属性也称为特征(feature),用于刻画对象的