大数据技术开篇之Hadoop入门【hdfs】 学习都是从了解到熟悉的过程,而学习一项新的技术的时候都是从这个技术是什么?可以干什么?怎么用?如何优化?这几点开始。今天这篇文章分为两个部分。一、hadoop概述 二、hadoop核心技术之一的hdfs的讲解。 【hadoop概述】 一、hadoop是什 ...
分类:
其他好文 时间:
2020-04-07 20:10:19
阅读次数:
61
1.shell的操作命令 hdfs命令有两种风格:hadoop fs、hdfs dfs 两种命令均可使用,效果相同。 1)查看子命令 hadoop fs、hdfs dfs 2)如果查看hdfs或hadoop子命令信息 hdfs dfs -help shellCmd hadoop fs -help s ...
分类:
系统相关 时间:
2020-04-07 00:23:00
阅读次数:
155
hive、Hbase、mysql的区别 1、Hive和HBase的区别 1)hive是sql语言,通过数据库的方式来操作hdfs文件系统,为了简化编程,底层计算方式为mapreduce。 2)hive是面向行存储的数据库。 3)Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce, ...
分类:
数据库 时间:
2020-04-06 20:39:58
阅读次数:
71
一、点击hdfs按钮进入hdfs配置界面 二、开始部署hdfs ha 三、分配角色 设置存储路径,这个可以自定义,我还在学习阶段我就默认了,之前改过,没起来,默认就好了; ...
分类:
Web程序 时间:
2020-04-06 09:58:10
阅读次数:
118
这是个不该踩的坑,被我踩了两天。 启动hbase之后,Hmaster和Hregionserver会自动相继down掉, 于是重新安装了hbase, 但是重新安装hbase之后, 你必须将zookeeper里的/hbase目录和hdfs里的/hbase目录全部删掉! 你必须将zookeeper里的/h ...
分类:
其他好文 时间:
2020-04-05 11:33:59
阅读次数:
83
在Linux上面kettle-spoon启动问题 文件大小限制问题 修改此文件 /etc/security/limits.conf * soft nofile 327680 * hard nofile 327680 hdfs soft nproc 131072 hdfs hard nproc 131 ...
分类:
编程语言 时间:
2020-04-03 15:03:45
阅读次数:
81
Flume定义: Flume是Cloudera提供的一个高可用的、高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构, 灵活简单。 为什么选用Flume 主要作用: 实时读取服务器本地磁盘的数据, 将数据写入到HDFS Flume的组织架构 1、最简单的组织架构 2、Flume ...
分类:
Web程序 时间:
2020-04-02 22:33:57
阅读次数:
107
1-数据仓库的基本特征 2-数据仓库和数据库的区别 3-数据仓库分层和元数据管理 4-Hive的基本介绍 ...
分类:
其他好文 时间:
2020-04-02 18:03:47
阅读次数:
52
./bin/hdfs zkfc -formatZK 初始安装时初始化zk,在Zookeeper中创建了路径/hadoop-ha/hacluster ./bin/hdfs haadmin -getServiceState master1 查看主节点的状态,是active还是standby ./bin/ ...
分类:
其他好文 时间:
2020-04-01 19:33:47
阅读次数:
55
hadoop中map和reduce都是进程(spark中是线程),map和reduce可以部署在同一个机器上也可以部署在不同机器上。 输入数据是hdfs的block,通过一个map函数把它转化为一个个键值对,并同时将这些键值对写入内存缓存区(100M),内存缓存区的数据每满80M就会将这80M数据写 ...
分类:
其他好文 时间:
2020-04-01 00:56:20
阅读次数:
58