颜色分类leetcode kaggle mushroom classification:使用SparkMLLib的Kaggle蘑菇分类
颜色分类leetcode Kaggle蘑菇分类挑战赛使用Spark MLLib。为Spark 2设置环境变量:当Spark 1和2都安装在一台机器上时,它默认使用Spark 1。您需要在使用pyspark或spark-submit之前,通过运行以下命令明确告诉机器使用Spark 2:$ export SPARK_MAJOR_VERSION=2
。
导入模块:
我使用pyspark的以下模块来完成这项任务:
pyspark import SparkContext
pyspark.sql import SparkSession, Row
pyspark.ml.feature import VectorAssembler, StringIndexer, OneHotEncoder
pyspark.ml import Pipeline
pyspark.ml.classification import RandomForestClassifier
设置SparkContext和Spark。