颜色分类leetcode kaggle mushroom classification:使用SparkMLLib的Kaggle蘑菇分类

徐秀丽 1 0 zip 2024-10-05 09:10:56

颜色分类leetcode Kaggle蘑菇分类挑战赛使用Spark MLLib。为Spark 2设置环境变量:当Spark 1和2都安装在一台机器上时,它默认使用Spark 1。您需要在使用pyspark或spark-submit之前,通过运行以下命令明确告诉机器使用Spark 2:$ export SPARK_MAJOR_VERSION=2

导入模块:

我使用pyspark的以下模块来完成这项任务:

from pyspark import SparkContext

from pyspark.sql import SparkSession, Row

from pyspark.ml.feature import VectorAssembler, StringIndexer, OneHotEncoder

from pyspark.ml import Pipeline

from pyspark.ml.classification import RandomForestClassifier

设置SparkContext和Spark。

用户评论
请输入评论内容
评分:
暂无评论