Spark Spark RDD的Transformation RDD的Transformation是指由一个RDD生成新RDD的过程,比如前面使用的flatMap、map、filter操作都返回一个新的RDD对象,类型是MapPartitionsRDD,它是RD... 02月14日 阅读 587 views Spark RDD的Transformation已关闭评论 阅读全文
未分类 Spark核心数据结构RDD的定义 RDD是Spark最重要的抽象,掌握了RDD,可以说就掌握了Spark计算的精髓。它不但对理解现有Spark程序大有帮助,也能提升Spark程序的编写能力。 02月13日 阅读 811 views Spark核心数据结构RDD的定义已关闭评论 阅读全文
未分类 Spark的容错机制 分布式系统通常在一个机器集群上运行,同时运行的几百台机器中某些出问题的概率大大增加,所以容错设计是分布式系统的一个重要能力。 01月23日 阅读 911 views Spark的容错机制已关闭评论 阅读全文
未分类 Spark的共享变量 Spark程序的大部分操作都是RDD操作,通过传入函数给RDD操作函数来计算。这些函数在不同的节点上并发执行,内部的变量有不同的作用域,不能相互访问,有些情况下不太方便,所以Spark提供了两类共享变... 01月23日 阅读 679 views Spark的共享变量已关闭评论 阅读全文
未分类 Spark RDD中的持久化 持久化在早期被称作缓存(cache),但缓存一般指将内容放在内存中。虽然持久化操作在绝大部分情况下都是将RDD缓存在内存中,但一般都会在内存不够时用磁盘顶上去(比操作系统默认的磁盘交换性能高很多)。当... 01月23日 阅读 692 views Spark RDD中的持久化已关闭评论 阅读全文
未分类 让Spark运行在YARN上(Spark on YARN) 在Spark Standalone模式下,集群资源调度由Master节点负责。Spark也可以将资源调度交给YARN来负责,其好处是YARN支持动态资源调度。Standalone模式只支持简单的固定资... 01月20日 阅读 1,214 views 让Spark运行在YARN上(Spark on YARN)已关闭评论 阅读全文