我们项目的文件组织:带有Spark的COVID-19(Databricks) 这个项目是如何进行的? 我们使用了kaggle网站( 记录的数据集) 2020年3月的报告。该项目的目的是预测一个人是否将被感染(病态的病人),那么他/她会康复还是死亡? 我们的数据包含有关人员(性别,年龄,居住地点),症状和国家/地区的信息。 在此项目期间,我们遇到了一些问题,例如缺失值的存在以及如何替换它们。 最后,我们估计的问题是多项式分类问题。 主要步骤: 1-数据清理和预处理:数据类型,从文本数据中删除特殊字符,转换为小写字母,消除尾随空格,处理缺失值和tf-idf。 2数据分析:变量可视化和相关性分析 3-预测模型:估计随机森林和朴素贝叶斯分类器(在这种情况下,随机森林方法显示为最佳!) 4参数调整:使用scikit-learn和RDD 附加输出: 使用Databricks创建仪表板 如何运