为什么要做降维: 提高计算效率 留存有用的特征,为后续建模使用 在项目中实际拿到的数据,可能会有几百个维度(特征)的数据集,这样的数据集在建模使用时,非常消耗计算资源,所以需要通过使用降维方法来优化数据集 线性判别分析(Linear Discriminant Analysis) 用途:数据预处理中的降维,分类任务(有监督问题) 目标:LDA关心的是能够最大化类间区分度的坐标轴成分 将特征空间(数据集中的多维样本)投影到一个维度更小的 k 维子空间中,同时保持区分类别的信息 原理:投影到维度更低的空间中,使得投影后的点,会形成按类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近