带有并行SGD的Spark上的FM 使用并行随机梯度下降(python和scala)在Spark上实现分解工厂机 因子分解机是Rendle在推出的智能通用预测器,可以捕获数据集中的所有单向和成对交互。 它可以应用于任何实值特征向量,并且在高度稀疏的数据上也能很好地执行。 FM的扩展,即Field Factorization Machines, 的被证明是预测广告点击量的成功方法。 我构建了一个自定义Spark实施以在Python和Scala中使用。 为了在Spark中充分利用并行计算,我实现了并行随机梯度下降来训练FM。 这形成了Mini-batch SGD的替代方法,后者已在MLLib中提供,用于训练Logistic回归模型。 该实现在速度和有效性方面显示出令人印象深刻的结果。 我在2015年夏季在ING荷兰实习期间就参与了该项目。ING拥有强大的数据科学家团队,我感谢他们在该项