1、本地模式:默认模式 - 不对配置文件进行修改。 - 使用本地文件系统,而不是分布式文件系统。 - Hadoop不会启动NameNode、DataNode、ResourceManager、NodeManager等守护进程,Map()和Reduce()任务作为同一个进程的不同部分来执行的。 - 用于 ...
分类:
其他好文 时间:
2019-07-19 14:03:28
阅读次数:
142
开发语言层面:1、继续巩固java功底,jdk8,9,10,11新特性2、python,go3、jvm 4、多线程编程5、响应式编程6、函数式编程 数据库层面:1、mysql调优,数据库运行原理。2、redis,MongoDB等常用nosql的使用,原理,各自优缺点和应用场景。3、掌握数据库索引相关 ...
分类:
其他好文 时间:
2019-07-07 14:13:24
阅读次数:
121
(一)内连接 inner join join 1. select a.ymd,a.price_close,b.price_close from stocks a join stocks b on a.ymd=b.ymd where a.symbol="AAPL" and b.symbol="IBM" ...
分类:
其他好文 时间:
2019-06-30 12:29:33
阅读次数:
83
在大量数据需要写入HBase时,通常有put方式和bulkLoad两种方式。 put不做解释。 BulkLoader方式的优势在于: 1、不会触发WAL预写日志,当表还没有数据时进行数据导入不会产生Flush和Split。 2、减少接口调用的消耗,是一种快速写入的优化方式。 但如果使用Spark操作 ...
分类:
其他好文 时间:
2019-06-18 19:47:25
阅读次数:
97
一 、什么是分布式系统 最简单定义的分布式系统是一组计算机一起工作,以最终用户身份显示为一台计算机。 这些机器具有共享状态,并发操作并可独立故障,而不会影响整个系统的正常运行时间。 二、分布式系统类别 1、 分布式数据存储 分布式数据存储被广泛使用并被公认为分布式数据库。大多数分布式数据库都是NoS ...
分类:
其他好文 时间:
2019-06-18 09:20:55
阅读次数:
144
第一节:hive的产生背景 mapreduce处理的绝大多数的数据,都是格式化的数据。格式化的数据的处理sql最擅长。mapjoin reducejoin的开发代码要写40行,而sql就一个sql语句就可以了,例如:select * from a join b on a.id=b.id;。 mapr ...
分类:
其他好文 时间:
2019-06-17 01:07:49
阅读次数:
119
MapReduce表连接操作之Map端join https://blog.csdn.net/lzm1340458776/article/details/42971075 MapReduce表连接操作之Reduce端join https://blog.csdn.net/lzm1340458776/ar ...
分类:
其他好文 时间:
2019-06-15 13:39:34
阅读次数:
143
第2节 mapreduce深入学习:7、MapReduce的规约过程combiner ...
分类:
其他好文 时间:
2019-06-14 22:20:44
阅读次数:
140
HDFS高可用性Hadoop HDFS 的两大问题:NameNode单点:虽然有StandbyNameNode,但是冷备方案,达不到高可用--阶段性的合并edits和fsimage,以缩短集群启动的时间--当NameNode失效的时候,Secondary NN并无法立刻提供服务,Secondary ...
分类:
Web程序 时间:
2019-06-14 18:22:47
阅读次数:
298
MapReduce这种并行编程模式思想最早是在1995年提出的。 MapReduce的特点: 与传统的分布式程序设计相比,MapReduce封装了并行处理、容错处理、本地化计算、负载均衡等细节,还提供了一个简单而强大的接口。 MapReduce把对数据集的大规模操作,分发给一个主节点管理下的各分节点 ...
分类:
其他好文 时间:
2019-06-12 11:00:30
阅读次数:
102