一、先看集群上的配置,这里设置了文件块副本数为 3 上传一个文件试试 二、在资源目录添加 hdfs-site.xml 配置后再上传 代码中的上传名字做下改变 三、在代码中指定下配置参数 总结:代码设置 > 工程资源目录配置 > 集群配置 > 默认配置 ...
分类:
其他好文 时间:
2019-04-14 13:58:41
阅读次数:
121
1.Hive不存储数据,Hive需要分析计算的数据,以及计算结果后的数据实际存储在分布式系统上,如HDFS上。 2.Hive某种程度来说也不进行数据计算,只是个解释器,只是将用户需要对数据处理的逻辑,通过SQL编程提交后解释成MapReduce程序,然后将这个MR程序提交给Yarn进行调度执行。所以 ...
分类:
数据库 时间:
2019-04-12 10:29:18
阅读次数:
238
在上传文件至 HDFS 提示如下信息 意思是连接不上目标机器,在目标机器上服务已经启动 最后发现是防火墙的原因,关闭即可 ...
分类:
其他好文 时间:
2019-04-12 00:49:31
阅读次数:
426
一、使用 setrep 命令来设置 二、文件块在磁盘上的路径 三、文件的分割 四、改变副本数后的文件的变化 http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html ...
分类:
其他好文 时间:
2019-04-12 00:42:59
阅读次数:
294
课程大纲(HDFS详解) Hadoop HDFS 分布式文件系统DFS简介 HDFS的系统组成介绍 HDFS的组成部分详解 副本存放策略及路由规则 命令行接口 Java接口 客户端与HDFS的数据流讲解 学习目标: 掌握hdfs的shell操作 掌握hdfs的java api操作 理解hdfs的工作 ...
分类:
其他好文 时间:
2019-04-11 16:05:57
阅读次数:
124
Hdfs dfs -cat path hadoop fs - 等同 1 -ls 查看当前目录的文件和文件夹 2 -lsr 递归查看 3 -du 查看文件的大小 4-dus 查看文件夹中所有的文件大小 5-Count 统计数量 文件夹 文件 文件大小总和 6-Mv:移动 改名 移动文件夹 7 -cp ...
分类:
其他好文 时间:
2019-04-10 21:49:19
阅读次数:
148
一、Hadoop的数据压缩 1.概述 在进行MR程序的过程中,在Mapper和Reducer端会发生大量的数据传输和磁盘IO,如果在这个过程中对数据进行压缩处理,可以有效的减少底层存储(HDFS)读写的字节数,,并且通过减少Map和Reduce阶段数据的输入输出来提升MR程序的速度,提高了网络带宽和 ...
分类:
其他好文 时间:
2019-04-08 10:38:13
阅读次数:
231
linux基础 为hadoop集群的搭建扫清了障碍,也为内存的管理,文件系统的管理扫清了障碍 接着到Hadoop的阶段,首先做集群的安装,深入到使用这两个核心的组件,分布式文件系统HDFS,解决大量数据怎么存储的问题,第二个就是分布式计算MapReduce。MapReduce的包含Yarn和MapR ...
分类:
其他好文 时间:
2019-04-07 20:31:25
阅读次数:
128
HDFS高可用环境HA的架构 HDFS组件由一个对外提供服务的namenode(存储元数据)和N个datanode组成;Zookeeper有三个作用:1.为了统一配置文件 config 2.多个节点的进程要修改公共变量的话,zookeeper会加一个锁 3.仲裁 (必须是奇数个节点,自己组成一个集群 ...
分类:
其他好文 时间:
2019-04-07 20:27:28
阅读次数:
129
-安装步骤说明: 1、安装jdk的操作 1-1 检查centos6.8自带的jdk 1-2 卸载自带的jdk(使用root帐号) 1-3 解压缩jdk(root帐号) 1-4 配置环境变量 1-5 检查jdk是否生效 2、配置ssh免密登录 2-1 为什么需要配置ssh免密登录: 2-2 安装ssh ...
分类:
其他好文 时间:
2019-04-07 18:06:05
阅读次数:
181