Hive基本概念 未分类

Hive基本概念

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
阅读全文
MapReduce程序的几种提交运行模式 未分类

MapReduce程序的几种提交运行模式

以下将介绍以下开发完MapReduce程序后,提交运行的几个模式。 本地模型运行 在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行...
阅读全文
Hadoop之MapReduce原理及运行机制 未分类

Hadoop之MapReduce原理及运行机制

MapReduce概述 MapReduce是Hadoop的另一个重要组成部分,是一种分布式的计算模型。由Google提出,主要用于搜索领域,解决海量数据的计算问题。 MapReduce执行主要分为两个...
阅读全文
Hadoop之HDFS源码分析 未分类

Hadoop之HDFS源码分析

HDFS的读取数据过程 初始化FileSystem,然后客户端(client)用FileSystem的open()函数打开文件 FileSystem用RPC调用元数据节点,得到文件的数据块信息,对于每...
阅读全文
Hadoop之RPC机制 未分类

Hadoop之RPC机制

什么是RPC机制 Remote Procedure Call(简称:RPC):远程过程调用协议。 RPC是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输...
阅读全文