SMP2020微博情绪分类技术评测数据集 SMP2020微博情绪分类技术评测数据集本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供原始数据源于新浪微博由微热点大数据研究院提供数据集分为两部分. 第一部分为通用微博数据集该数据集内的微博内容是随机获取到微博内容不针对特定的话题覆盖的范围较广. 第二部分为疫
jblas1.2.4SNAPSHOT 里MLlib库需要依赖[jblas线性代数库](http://jblas.org/),如果大家编译jblas的jar包有问题,可以获取。把jar包加到lib文件夹后,记得在spark-env.sh添加配置
Spark机器学习文本处理数据集 为了说明概念,我们将使用一个非常有名的数据集,叫作20Newsgroups;这个数据集一般用来做文本分类。这是一个由20个不同主题的新闻组消息组成的集合,有很多种不同的数据格式。对于我们的任务来说,可以使用按日期组织的数据集。
Spark机器学习回归模型数据集 为了阐述本章的一些概念,我们选择了bikesharing数据集做实验。这个数据集记录了bikesharing系统每小时自行车的出租次数。另外还包括日期、时间、天气、季节和节假日等相关信息。