我们在安装HDFS的时候,我们在hdfs-site.xml配置过DataNode的数据存储的文件目录,如下: 目录/home/hadoop-twq/bigdata/dfs/data就是DataNode存放数据的地方,这个目录对应的存储介质就是普通的磁盘(DISK)。除了普通磁盘,存储介质其实还有固态 ...
分类:
其他好文 时间:
2019-09-08 19:50:27
阅读次数:
78
1. 副本摆放机制 机架感知策略: 由于处于不同的机架的两个节点在通信的时候需要通过交换机,而同一机架上的节点之间的通信网络带宽更高,效率更高,读写成本更低。 通常情况下,HDFS默认的副本系数为3: 副本1:本rack的一个节点上 副本2:另外一个rack的节点上 副本3:与2相同的rack的另外 ...
分类:
其他好文 时间:
2019-09-08 09:55:16
阅读次数:
72
意思说在 hdfs://localhost:9000/usr/local/spark/zytdemo找不到响应的文件,我们可以分析的得到他并不是加载本地文件,而是区hdfs上查找。 这是由于我们在之前配置时修改过 /usr/local/hadoop/etc/hadoop下的core-site.xml ...
分类:
Web程序 时间:
2019-09-06 18:36:47
阅读次数:
126
jar包方式部署: 1、创建一个java工程,命名为weekend110 2、需要在java Build Path添加Libraries命名为hdfs 在hdfs里面 添加jar包: 接着添加lib所有jar包: 再添加common的核心包: 最后再重新添加lib包,重复可以覆盖! 完成ok! 第二 ...
分类:
编程语言 时间:
2019-09-05 18:39:43
阅读次数:
123
某些场景下,我们在写UDF实现业务逻辑时候,可能需要去读取某个配置文件。 大多时候我们都会将此文件上传个hdfs某个路径下,然后通过hdfs api读取该文件,但是需要注意: UDF中读取文件部分最好放在静态代码块中(只会在类加载时候读取一次),尤其在处理的数据量比较大的时候,否则会反反复复的读取, ...
分类:
其他好文 时间:
2019-09-05 18:33:01
阅读次数:
212
第4章 DDL数据定义 4.1 创建数据库 1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。 2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法) 3)创建一个数据库,指定数据库在HDFS上存放的位置 4.2 ...
分类:
其他好文 时间:
2019-09-05 01:13:22
阅读次数:
110
1.1数据仓库概念 什么是数据仓库? 数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用 目的? 构建面向分析的集成化数据环境,主要职责是做分析,对仓库里面的数据来做分析,数据分析可以支持我们做决策 数据分析特征: (1)面向主题:数据分析有一定 ...
分类:
其他好文 时间:
2019-09-04 00:28:57
阅读次数:
95
package test.hdfs; import java.io.IOException; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSyste... ...
分类:
其他好文 时间:
2019-09-03 22:39:12
阅读次数:
123
package test.hdfs; import java.io.IOException; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSyste... ...
分类:
其他好文 时间:
2019-09-03 22:13:14
阅读次数:
134
大致思路是将hdfs上的文本作为输入,MapReduce通过InputFormat会将文本进行切片处理,并将每行的首字母相对于文本文件的首地址的偏移量作为输入键值对的key,文本内容作为输入键值对的value,经过在map函数处理,输出中间结果<word,1>的形式,并在reduce函数中完成对每个 ...
分类:
其他好文 时间:
2019-09-02 21:00:24
阅读次数:
165