SparkMLlib机器学习实践 ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架,Spark,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是——
kafka2.10linux包 Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要
Apache Spark2.0.2中文官方文档 关于学习 Spark 的部分,英文好点的话,跟着 Spark 官方文档的英文版走就行了。 如果英语不是很好,可以阅读下由 ApacheCN 组织翻译的 Spark 2.2.0 官方文档中文版。 从概述开始,然后编程指南的快速入门,Spark 编程指南,Spark streaming 一步一步往下走。