Ta上传的资源 (0)

对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非常重要的Python包。它不仅提供了很多方法,使得数据处理非常简单,同时在数据处理速度上也做了很多优化,使得和Python内置方法相比时有了很大的优势。

Loan Prediction 数据集是保险领域最常引用的一个数据集。利用这个数据集,你可以充分体验到如何处理保险公司的数据,包括会遇到哪些挑战、需要什么策略、哪些变量会影响结果等。这是一个分类问题,数据集包含614行13列个数据。

在Twitter的情感分析数据集包含1,578,627条分类推文,每行标记为1表示积极情绪,0表示负面情绪。我建议使用1/10的语料库来测试你的算法,而其余的可以用来训练你用来分类情绪的任何算法

最近在使用spark的过程中,发现自己对spark的包了解的不够,网上查也是这一点那一点的,所以自己整理的一张脑图,然后做了些实验,记录下来,上传到CSDN上需要的自取