Spark RDD的Shuffle 未分类

Spark RDD的Shuffle

Shuffle的概念来自Hadoop的MapReduce计算过程。当对一个RDD的某个分区进行操作而无法精确知道依赖前一个RDD的哪个分区时,依赖关系变成了依赖前一个RDD的所有分区。比如,几乎所有&...
阅读全文
Spark RDD的Action 未分类

Spark RDD的Action

RDD的Action是相对Transformation的另一种操作。Transformation代表计算的中间过程,从一个RDD生成新的RDD;而Action代表计算的结束,一次Action调用之后,...
阅读全文
Spark RDD的Transformation 未分类

Spark RDD的Transformation

RDD的Transformation是指由一个RDD生成新RDD的过程,比如前面使用的flatMap、map、filter操作都返回一个新的RDD对象,类型是MapPartitionsRDD,它是RD...
阅读全文
Spark核心数据结构RDD的定义 未分类

Spark核心数据结构RDD的定义

RDD是Spark最重要的抽象,掌握了RDD,可以说就掌握了Spark计算的精髓。它不但对理解现有Spark程序大有帮助,也能提升Spark程序的编写能力。
阅读全文