微信公众号:数据拾光者。愿结交更多的小伙伴,一同走人生路。 摘要:通常在大厂实际项目中会使用Spark来处理大规模数据下的数据挖掘和分析相关工作。本篇从项目实战中总结常用的Spark特征处理实例,方便小伙伴们更好的使用Spark做数据挖掘相关的工作。 目录 01 特征处理的意义 02 特征提取 03 特征转换 04 特征选择 01 特征处理的意义 在数据挖掘项目中,由于我们获取的原始数据中包含很多噪声,所以在真正提供给模型前需要特征处理处理工作,否则再好的模型也只能“Garbage in,garbage out”。 总的来说,特征处理主要包括三部分,特征提取、特征转换和特征选择。 02 特征提