未分类 让Spark运行在YARN上(Spark on YARN) 在Spark Standalone模式下,集群资源调度由Master节点负责。Spark也可以将资源调度交给YARN来负责,其好处是YARN支持动态资源调度。Standalone模式只支持简单的固定资... 01月20日 阅读 1,459 views 让Spark运行在YARN上(Spark on YARN)已关闭评论 阅读全文
未分类 Scala概述及环境安装 Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。 12月05日 阅读 491 views Scala概述及环境安装已关闭评论 阅读全文
未分类 利用Hadoop Mapreduce实现pv统计分析 本文将介绍通过Hadoop Mapreduce实现离线统计网站每日pv的思路及代码。 11月23日 阅读 1,195 views 利用Hadoop Mapreduce实现pv统计分析已关闭评论 阅读全文
未分类 Hive基本概念 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 11月20日 阅读 571 views Hive基本概念已关闭评论 阅读全文
未分类 Hadoop之HDFS概念与体系结构 HDFS是什么 Hadoop Distributed File System(简称HDFS)是Hadoop分布式文件系统。 HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署... 10月18日 阅读 517 views Hadoop之HDFS概念与体系结构已关闭评论 阅读全文
未分类 Hadoop 2.x 伪分布式环境搭建 体验一下Hadoop2.x版本在单机环境下是如何安装配置。 10月16日 阅读 545 views Hadoop 2.x 伪分布式环境搭建已关闭评论 阅读全文