Mapper Input: 输入为 InputFormat产生的 InputSplit The Hadoop MapReduce framework spawns one map task for each InputSplit generated by the InputFormat for th ...
分类:
编程语言 时间:
2019-04-15 19:57:43
阅读次数:
183
一。读写Parquet(DataFrame) Spark SQL可以支持Parquet、JSON、Hive等数据源,并且可以通过JDBC连接外部数据源。前面的介绍中,我们已经涉及到了JSON、文本格式的加载,这里不再赘述。这里介绍Parquet,下一节会介绍JDBC数据库连接。 Parquet是一种 ...
分类:
其他好文 时间:
2019-04-13 10:47:33
阅读次数:
461
1.Hive不存储数据,Hive需要分析计算的数据,以及计算结果后的数据实际存储在分布式系统上,如HDFS上。 2.Hive某种程度来说也不进行数据计算,只是个解释器,只是将用户需要对数据处理的逻辑,通过SQL编程提交后解释成MapReduce程序,然后将这个MR程序提交给Yarn进行调度执行。所以 ...
分类:
数据库 时间:
2019-04-12 10:29:18
阅读次数:
238
cloudera manager 进到cluster里面,点击Dynamic Resource Pools,没做任何配置默认情况下,资源池里有个default资源组 hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar ...
分类:
其他好文 时间:
2019-04-07 20:31:50
阅读次数:
203
linux基础 为hadoop集群的搭建扫清了障碍,也为内存的管理,文件系统的管理扫清了障碍 接着到Hadoop的阶段,首先做集群的安装,深入到使用这两个核心的组件,分布式文件系统HDFS,解决大量数据怎么存储的问题,第二个就是分布式计算MapReduce。MapReduce的包含Yarn和MapR ...
分类:
其他好文 时间:
2019-04-07 20:31:25
阅读次数:
128
一、使用MapReduce的方式进行词频统计 (1)在hadoop根目录下创建input输入文件夹,这和在HDFS用户目录下创建input文件夹是两件不同的事情。 (2)在input文件夹中创建两个测试文件file1.txt和file2.txt。 知识点延伸: (3)调用MapReduce程序对in ...
分类:
其他好文 时间:
2019-04-07 00:20:34
阅读次数:
261
主要功能: 1、存储:HDFS 2、分析/运算:Mapreduce 3、调度:YARN 存储: hdfs分布式文件存储系统,是nosql数据库,每台节点服务器都是hdfs的部分,大数据平均分布在每个节点上,并且是以文件存储的形式,每个节点上存储的部分数据有通过块来进行数据文件的分片,形成数据块,每个 ...
分类:
其他好文 时间:
2019-04-06 23:03:41
阅读次数:
139
1、hadoop 工作原理: a.首先 概括里面的角色(HDFS 、Mapreduce) b.讲解各个角色的整体架构 HDFS: 概念: 分布式文件系统,用于海量数据存储。 架构: master/slave 架构 :1个Namenode和多个Ddatanode。 工作原理: Namenode:(项目 ...
分类:
其他好文 时间:
2019-04-05 21:32:15
阅读次数:
205
先看一下目录结构 这里是job接口,负责参数的传递和定时的调用 下面的图是MR 程序相关的目录图片,其中MR的入口程序负责读取数据,并指定对应的Map、Reduce程序。 程序的流程 首先简单的说一下,整体的流程: 上代码 Job程序: MR入口程序,负责数据的读取,指定对应的Map、Reduce程 ...
分类:
其他好文 时间:
2019-04-05 15:37:47
阅读次数:
116
实现将 HDFS 中的数据写入到 HBase 表中 Runner类 Mapper类 Reduce类 ...
分类:
其他好文 时间:
2019-04-05 12:36:46
阅读次数:
118