Spark Spark RDD的Transformation RDD的Transformation是指由一个RDD生成新RDD的过程,比如前面使用的flatMap、map、filter操作都返回一个新的RDD对象,类型是MapPartitionsRDD,它是RD... 02月14日 阅读 626 views Spark RDD的Transformation已关闭评论 阅读全文
未分类 Spark核心数据结构RDD的定义 RDD是Spark最重要的抽象,掌握了RDD,可以说就掌握了Spark计算的精髓。它不但对理解现有Spark程序大有帮助,也能提升Spark程序的编写能力。 02月13日 阅读 875 views Spark核心数据结构RDD的定义已关闭评论 阅读全文
未分类 Spark的容错机制 分布式系统通常在一个机器集群上运行,同时运行的几百台机器中某些出问题的概率大大增加,所以容错设计是分布式系统的一个重要能力。 01月23日 阅读 979 views Spark的容错机制已关闭评论 阅读全文
未分类 Spark的共享变量 Spark程序的大部分操作都是RDD操作,通过传入函数给RDD操作函数来计算。这些函数在不同的节点上并发执行,内部的变量有不同的作用域,不能相互访问,有些情况下不太方便,所以Spark提供了两类共享变... 01月23日 阅读 730 views Spark的共享变量已关闭评论 阅读全文
未分类 让Spark运行在YARN上(Spark on YARN) 在Spark Standalone模式下,集群资源调度由Master节点负责。Spark也可以将资源调度交给YARN来负责,其好处是YARN支持动态资源调度。Standalone模式只支持简单的固定资... 01月20日 阅读 1,459 views 让Spark运行在YARN上(Spark on YARN)已关闭评论 阅读全文
未分类 将SparkSQL计算结果写入Mysql中 编写代码 package com.itunic.sql import java.util.Properties import org.apache.spark.sql.{Row, SQLContext... 01月03日 阅读 944 views 将SparkSQL计算结果写入Mysql中已关闭评论 阅读全文
未分类 以编程方式执行Spark SQL查询的两种实现方式 在自定义的程序中编写Spark SQL查询程序 01月02日 阅读 494 views 以编程方式执行Spark SQL查询的两种实现方式已关闭评论 阅读全文
未分类 利用Apache Spark实现pv统计分析 本文将介绍通过Apache Spark实现离线统计网站每日pv的思路及代码。 12月26日 阅读 672 views 利用Apache Spark实现pv统计分析已关闭评论 阅读全文
未分类 Scala概述及环境安装 Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。 12月05日 阅读 491 views Scala概述及环境安装已关闭评论 阅读全文