Hive总结讲义 ive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库
HBASE讲义文档 基于hadoop的数据库工具 来源于google的一片论文BigTable后来由Apache做了开源实现就是HBase 是一种NoSQL非关系型的数据库不符合关系型数据库的范式 适合存储半结构化非结构化的数据 适合存储稀疏的数据空的数据不占用空间 面向列(族)进行存储 提供实时增删改查的能力是一种真
python爬虫讲义 爬虫,即网络爬虫,通过递归访问网络资源,抓取信息。 比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,理论上可以将爬取到整个互联网的绝大部分数据。
spark讲义总结1 用scala编写底层是基于actor模式的akka框架代码结构简洁基于DAG(有向无环图)的执行引擎减少了计算时数据频繁读写到磁盘的开销**DAG有向无环图:spark设计之初就考虑了大量连续计算的需求允许在对数据处理时经由许多步算子按序计算来实现处理这些处理是一个图的结构但是要注意的是图有向但是不
scala spark v4.0 最初学习scala主要为了学习spark生态,但是深入学习scala的一些特性后,深深被scala函数式和面向对象的风格所折服,不得不赞美设计这门语言的设计者。不得不说scala的函数式和面向对象风格,可以让想象随时发生;如果你是画家,使用scala写的代码将是一幅充满诗意的风景画;如果你是作曲家,