sklearn在中小型数据集上,在工业界是在使用的 xgboost、lightgbm在工业界的实用度非常的高 工业界数据体量真的达到上亿或者十亿这样的规模用sklern处理起来是比较吃力的, 可借助于大数据的工具,比如spark来解决 现在可以用spark来做大数据上的数据处理,比如数据工程、监督学习、无监督学习模型的构建,只要计算资源够就OK。【大数据底层做分布式处理】 注意:spark基于RDD形态、DataFrame形态两种形态的工具库,其中基于RDD形态的工具库目前已经暂停维护,所以建议使用DataFrame形态 对连续值处理 binaizer/二值化、按照给定边界离散化、 quant