配置前先把域名映射配好哈 详情参考我的其他随笔 下载好hdfs.tar.gz 后 在/home/ldy下 mkdir apps/ tar -xzvf hdfs.tar.gz -C /home/ldy/apps/ #专门用来安装hdfs 和jdk的 修改环境变量:vim /etc/profile 在最 ...
分类:
其他好文 时间:
2019-07-18 13:21:00
阅读次数:
104
Spark-on-YARN 1. 官方文档 http://spark.apache.org/docs/latest/running-on-yarn.html 2. 配置安装 1.安装hadoop:需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上。 2 ...
分类:
其他好文 时间:
2019-07-17 00:18:54
阅读次数:
98
http://blog.itpub.net/31545816/viewspace-2215281/ https://www.cnblogs.com/liuling/p/2013-6-19-01.html https://blog.csdn.net/jiachengwin/article/detail ...
分类:
Web程序 时间:
2019-07-16 18:40:20
阅读次数:
162
存储流程 a) <!--[endif]-->Clinet首先将要存储的数据切分成若干块,然后向NameNode发送存储请求, 首先向向缓冲区chunkbuff中写入,当达到一个chunk大小时(512byte),将chunk写出到packetbuff,每个chunk有一个MD5码(4byte),这个 ...
分类:
其他好文 时间:
2019-07-16 16:47:40
阅读次数:
122
写于2016.7月 最近项目需要在hbase上做统计分析,在本机上装了hive,结果跑小批量数据sum时报错: 查看yarn日志,一样也是空指针异常,还有个提示是No plan file found: hdfs://... 查看hive源码,发现gWork为null,导致空指针异常 接着查看Util ...
分类:
编程语言 时间:
2019-07-15 17:36:26
阅读次数:
545
1.什么是DataX ? DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 2. DataX的设计 为了解决异构数据源同步问题,DataX将复 ...
分类:
其他好文 时间:
2019-07-15 01:23:43
阅读次数:
555
Hadoop 2.0产生背景 Hadoop 1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题 HDFS存在的问题(2个) NameNode单点故障,难以应用于在线场景 HA NameNode压力过大,且内存受限,影扩展性 F MapReduce存在的问题响系统 JobTracker ...
分类:
其他好文 时间:
2019-07-14 15:21:20
阅读次数:
68
HDFS存储模型 以字节形式存储 文件线性切割成块(Block):偏移量 offset (byte) Block分散存储在集群节点中 单一文件Block大小一致,文件与文件可以不一致 Block可以设置副本数,副本无序分散在不同节点中 副本数不要超过节点数量 文件上传可以设置Block大小和副本数( ...
分类:
其他好文 时间:
2019-07-14 13:23:58
阅读次数:
184
HDFS写流程 Client 切分文件Block 按Block线性和NN获取DN列表(副本数) 验证DN列表后以更小的单位流式传输数据 各节点,两两通信确定可用 Block传输结束后 DN向NN汇报Block信息 DN向Client汇报完成 Client向NN汇报完成 获取下一个Block存放的DN ...
分类:
其他好文 时间:
2019-07-14 12:41:34
阅读次数:
95
概念 海量数据的数据统计平台,将hql翻译为mapreduce程序。 优点 简单;适用于对实时性要求不严的场合;适合处理大数据 缺点 无法表达迭代式计算; 不擅长数据挖掘; 效率比较低。 本质(相当于hadoop的一个客户端) hive的数据存储在hdfs; hive的数据处理在mapreduce; ...
分类:
其他好文 时间:
2019-07-13 21:29:55
阅读次数:
138