Spark RDD的Transformation Spark

Spark RDD的Transformation

RDD的Transformation是指由一个RDD生成新RDD的过程,比如前面使用的flatMap、map、filter操作都返回一个新的RDD对象,类型是MapPartitionsRDD,它是RD...
阅读全文
Spark核心数据结构RDD的定义 未分类

Spark核心数据结构RDD的定义

RDD是Spark最重要的抽象,掌握了RDD,可以说就掌握了Spark计算的精髓。它不但对理解现有Spark程序大有帮助,也能提升Spark程序的编写能力。
阅读全文
Spark的容错机制 未分类

Spark的容错机制

分布式系统通常在一个机器集群上运行,同时运行的几百台机器中某些出问题的概率大大增加,所以容错设计是分布式系统的一个重要能力。
阅读全文
Spark的共享变量 未分类

Spark的共享变量

Spark程序的大部分操作都是RDD操作,通过传入函数给RDD操作函数来计算。这些函数在不同的节点上并发执行,内部的变量有不同的作用域,不能相互访问,有些情况下不太方便,所以Spark提供了两类共享变...
阅读全文
让Spark运行在YARN上(Spark on YARN) 未分类

让Spark运行在YARN上(Spark on YARN)

在Spark Standalone模式下,集群资源调度由Master节点负责。Spark也可以将资源调度交给YARN来负责,其好处是YARN支持动态资源调度。Standalone模式只支持简单的固定资...
阅读全文
Scala概述及环境安装 未分类

Scala概述及环境安装

Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。
阅读全文